日文全文搜尋 : O3noBLOG

02月 02日

日文全文搜尋

這篇要講的是很基本的東西，不過我是最近有需要才搞清楚的，雖然標題是日文，不過其實中文也是一樣的狀況。

MySQL資料庫內的全文索引還只支援用空白斷詞，不過這種方法在中文、日文的語言結構下完全無法產生作用，而且事實上也很難讓程式能根據語意正確的斷詞，像是有名的句子：「すもももももももものうち」，程式語言很難判斷該在哪斷出すもも、もも兩個主詞，因此有了 N-Grams 斷詞的演算法，使用 N-Grams 來對上面的例句做處理，會變成：「すすも　もも　もも　もも　もも　もも　もも　もも　もの　のう　うち　ち」。

轉成這樣的詞句來讓資料庫系統做索引，要搜尋時也先把關鍵字做 N-Grams 斷詞，分成多個關鍵字，這樣按照分數來排就可以得到還不錯的搜尋結果了，不過有兩個問題，首先是可能會因為斷詞方式而有不正確的搜尋結果，這問題目前只能加長斷詞的長度，例如把兩個字的長度改為三個字的長度。另一個問題是 MySQL 其實要到 5.1 才支援，5.0還沒有，所以一直以來要做全文搜尋，都是把目標欄位做 N-Grams 斷詞，存到另一個欄位裡面，然後對該欄位做全文索引（Fulltext Index），另外還要在 my.cnf 的 mysqld 區塊內加上：

ft_min_word_len=1

這樣 MySQL 做全文索引時，才會把字串長度在 1 以上的詞都納入範圍，如此一般就可以用 MATCH, AGAINST 的語法來進行全文檢索了，這裡 MySQL 還會自動的忽略大小寫、平假名片假名，用 LIKE 時要忽略平假名片假名可是很辛苦的～＿～。

單篇彙整