:::

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

image

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。


找尋Weka安裝目錄 / Find Weka’s Directory

2017-06-23_133846

首先,我們要找尋Weka的安裝目錄。大部分時候Weka預設安裝目錄都在「C:\Program Files\Weka-3-8」中(其中3-8是版本編號,你的可能會跟我不一樣)。

如果你不確定的話,可以用以下方法來找尋Weka的安裝目錄。

image

在Windows的開始選單中找到Weka,按右鍵,選擇「內容」。

image

在「開始位置」那串路徑,就是Weka的安裝目錄。

修改檔案編碼為utf-8 / Set fileEncoding=utf-8

做法如下:

image3

1. 開啟Weka的安裝目錄

2. 用文字編輯器開啟 RunWeka.ini  (例如使用「Notepad++」或「記事本」開啟)

image4

3. 把以下設定

fileEncoding=Cp1252

改成

fileEncoding=utf-8

4. 儲存檔案

5. 重新開啟Weka

image

下次再載入含有中文的資料時,Weka就能正常顯示中文,不會變成亂碼了。

快速做法:取代RunWeka.ini / Quick Solution: Replace your RunWeka.ini

你也可以直接下載我修改好的RunWeka.ini來取代原本的設定檔:

不過若Weka版本不合,這方法也可能會出錯就是了。如果取代之後發現Weka不能開啟,請使用上面的完整做法自己手動修改RunWeka.ini吧。

總共6 則留言, (我要發問)

  1. 還好寫了說明,可以在很多地方都直接拿出來用,很不錯。

    回覆刪除
  2. 布丁你好,依照你的方法修改了fileEncoding=utf-8,重新開啟 Weka 亂碼還是存在??
    我的系統版本是 Win10、Weka3.8.4

    回覆刪除
    回覆
    1. 1. 把整個Weka都關掉,再重啟看看
      2. 需確認你的檔案是UTF8編碼

      如果是從Excel轉存csv檔案的話,通常是BIG-5編碼喔

      刪除
    2. 1. 把整個Weka都關掉,再重啟看看 ==> 有
      2. 需確認你的檔案是UTF8編碼 ==> 要怎麼確認CSV是否為UTF8編碼

      謝謝

      刪除
    3. 您好,可以看到中文了,非常感謝。

      刪除
    4. 我推薦用Notepad++來看編碼

      http://blog.pulipuli.info/2016/12/utf-8notepad-how-to-convert-plain-text.html#postcatautf-8notepad-how-to-convert-plain-text.html0_anchor1
      「如何把純文字檔案轉換成UTF-8格式:使用Notepad++」這篇有說明

      刪除