如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8
在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。
找尋Weka安裝目錄 / Find Weka’s Directory
首先,我們要找尋Weka的安裝目錄。大部分時候Weka預設安裝目錄都在「C:\Program Files\Weka-3-8」中(其中3-8是版本編號,你的可能會跟我不一樣)。
如果你不確定的話,可以用以下方法來找尋Weka的安裝目錄。
在Windows的開始選單中找到Weka,按右鍵,選擇「內容」。
在「開始位置」那串路徑,就是Weka的安裝目錄。
修改檔案編碼為utf-8 / Set fileEncoding=utf-8
做法如下:
1. 開啟Weka的安裝目錄
2. 用文字編輯器開啟 RunWeka.ini (例如使用「Notepad++」或「記事本」開啟)
3. 把以下設定
fileEncoding=Cp1252
改成
fileEncoding=utf-8
4. 儲存檔案
5. 重新開啟Weka
下次再載入含有中文的資料時,Weka就能正常顯示中文,不會變成亂碼了。
快速做法:取代RunWeka.ini / Quick Solution: Replace your RunWeka.ini
你也可以直接下載我修改好的RunWeka.ini來取代原本的設定檔:
不過若Weka版本不合,這方法也可能會出錯就是了。如果取代之後發現Weka不能開啟,請使用上面的完整做法自己手動修改RunWeka.ini吧。