:::

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

image

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。


找尋Weka安裝目錄 / Find Weka’s Directory

2017-06-23_133846

首先,我們要找尋Weka的安裝目錄。大部分時候Weka預設安裝目錄都在「C:\Program Files\Weka-3-8」中(其中3-8是版本編號,你的可能會跟我不一樣)。

如果你不確定的話,可以用以下方法來找尋Weka的安裝目錄。

image

在Windows的開始選單中找到Weka,按右鍵,選擇「內容」。

image

在「開始位置」那串路徑,就是Weka的安裝目錄。

修改檔案編碼為utf-8 / Set fileEncoding=utf-8

做法如下:

image3

1. 開啟Weka的安裝目錄

2. 用文字編輯器開啟 RunWeka.ini  (例如使用「Notepad++」或「記事本」開啟)

image4

3. 把以下設定

fileEncoding=Cp1252

改成

fileEncoding=utf-8

4. 儲存檔案

5. 重新開啟Weka

image

下次再載入含有中文的資料時,Weka就能正常顯示中文,不會變成亂碼了。

快速做法:取代RunWeka.ini / Quick Solution: Replace your RunWeka.ini

你也可以直接下載我修改好的RunWeka.ini來取代原本的設定檔:

不過若Weka版本不合,這方法也可能會出錯就是了。如果取代之後發現Weka不能開啟,請使用上面的完整做法自己手動修改RunWeka.ini吧。

0 意見:

留言工具: