簡易PHP中文斷字器 / A Simple Chinese Word Tokenizer in PHP
簡易PHP中文斷字器 / A Simple Chinese Word Tokenizer in PHP
這篇製作了一個簡單的斷字器,將「這份編號是tc_130的心靈錯位器真是太cool了」變成「這 份 編 號 是 tc _ 130 的 心 靈 錯 位 器 真 是 太 cool 了」。詳細來說,就是在不是英數字的文字前後加上空格,但是英數字則保持原樣。這樣子就能讓Apache Solr這樣的全文檢索引擎為內容索引時,就可以找到以中文一個字為單位的層級了。
(more...)
Comments