Weka 66 Comments Edit Copy Download

雖然Weka有很多用來預測的分類演算法，但真正用Weka來進行預測的教學卻很少。這篇將參考「How to Save Your Machine Learning Model and Make Predictions in Weka」的教學，從比較容易為大家編輯的試算表檔案開始，如何利用Weka的分類功能來為未知案例進行預測。

範例資料 / Demo Data
預測未知案例的操作步驟 / How to Predict Unknow Instances
1. 試算表檔案轉換成ARFF / Spreafsheet to ARFF
2. 建立預測模型 / Building a Predict Model
3. 預測未知案例 / Predict Unknow Instances
4. 將分析結果轉換成試算表格式CSV檔案 / Convert Predict Results to CSV format
結語 / Conclusion

範例資料 / Demo Data

這裡我以知名的鳶尾花資料集(iris set)為例子跟大家說明。原本鳶尾花資料集共150個樣本，為了方便說明，我各取三種鳶尾花中的5個樣本，重新選出取出15個資料集出來，製作成試算表格式的檔案。我將其中3個樣本的分類目標(class)以「?」遮起來，表示這是未知、需要預測的案例。

這個鳶尾花試算表格式資料集可以從下面連結下載：

Google試算表、CSV格式、Excel格式、Open Document Spreadsheet格式

製作這樣的資料集時，必須注意以下幾點：

第一列為屬性名稱，例如「sepallength」、「class」等等。
屬性名稱中必須要有名為「class」的分類目標。
如果是文本探勘，則必須要有名為「document」的屬性。預設此欄位會套用斷詞功能。

預測未知案例的操作步驟 / How to Predict Unknow Instances

接下來我要以Weka 3.8版跟我撰寫的網頁程式為例來說明如何這份資料集中標示為「?」的未知案例。這整個流程有點長，大致上可分成四大階段：

將試算表檔案轉換成「訓練資料集」跟「測試資料集」兩份ARFF檔案
在Weka中，以訓練資料集建立預測模型
在Weka中，以預測模型預測測試資料集，取得分析結果
將測試資料集與分析結果轉換為試算表檔案

那麼，我們就開始吧。

1. 試算表檔案轉換成ARFF / Spreafsheet to ARFF

這個步驟我們都在上面「Weka Spreadsheet to ARFF」的網頁中進行。

取得試算表檔案：首先我們要將鳶尾花試算表格式檔案儲存到本機端，個人推薦使用Open Document Spreadsheet開放文件格式：
在Weka Spreadsheet to ARFF網頁中的Input裡的上傳檔案欄位，選擇該檔案。
然後找到Result下載檔案的按鈕，下載「Train Data Set」跟「Test Data Set」。

這個步驟最後就會取得兩個檔案：

Train Data Set：用來建立預測模型的訓練檔案。
Test Data Set：分類目標為「?」，有待預測的未知案例。

2. 建立預測模型 / Building a Predict Model

接下來我們來到Weka中建立預測模型。這邊大部分的步驟都跟大家知道的Weka分類操作很像，但還是有微些不同，請仔細看看囉。

開啟Weka，進入Explorer。
Open file，開啟剛剛下載的Train Data Set訓練資料集。
進入Classify分類面板，選擇Classifier分類器、分類目標Class，這部分的設定就隨你想要使用的分類器來調整即可，例如選用J48決策樹。要特別注意的是，在Test options裡面需要選擇「Use training set」。然後按下「Start」，得到分析結果。
接著在Result list中選取剛剛分析結果，按滑鼠右鍵，選擇「Save model」，這樣就可以把分類預測模型儲存成一份副檔名為「.model」的檔案。

在這個步驟中，最後我們會獲得一個副檔名為「.model」的分類預測模型檔案「classify.model」。接下來我們就要用這個模型來對未知案例進行預測。

3. 預測未知案例 / Predict Unknow Instances

一般在使用的時候，建立分類預測模型跟預測未知案例會是兩個不連續、不會在同一時間進行的步驟。建立分類預測模型是拿手邊已經知道結果的資料集，而建立過程通常會花費許多時間。一旦有了既成的分類預測模型，那麼我們未來有不確定的未知案例時，就可以用這個模型簡單地進行預測。因此，下面的步驟中，請全部關閉Weka，重頭開始作起吧。

開啟Weka，進入Explorer。
Open file，開啟剛剛下載的Test Data Set測試資料集。
進入Classify分類面板，直接選擇Test options中的Supplied test set，然後點選「Set…」按鈕。
用「Open file…」開啟Test Data Set測試資料集，確認分類目標Class選擇無誤，按下Close。
在分類面板中，進入「More options…」。
找到Output predicitons設定，用「Choose」按鈕選擇「CSV」，然後點選「CSV」粗體字進入更深一層的設定選單。
將outputDistribution設定改為「True」，按下「OK」一路退出回到分類面板。
在左下角的「Result list」中按右鍵，選擇「Load model」，讀取剛剛儲存的「classify.model」，Result list會出現一個分析結果，那就是剛剛儲存的分類預測模型。
選擇分類預測模型分析結果，按滑鼠右鍵，選擇「Re-evaluate model on current test set」，右邊就會出現預測結果。但這個結果不好分析，我們的步驟還沒結束。
同樣在分類預測模型分析結果上按滑鼠右鍵，選擇「Save result buffer」，把預測結果儲存成「result.txt」吧。

這個步驟中，最後我們會取得預測結果「result.txt」。這個結果並不容易閱讀與分析，所以我們要在下一個步驟中把它轉換成容易處理的試算表格式CSV。

4. 將分析結果轉換成試算表格式CSV檔案 / Convert Predict Results to CSV format

在第一個步驟中，我們獲得了「Test Data Set」測試資料集；在第三個步驟中，我們獲得了「result.txt」預測結果。現在我們要將這兩種檔案結合在一起，轉換成容易處理、分析的CSV格式。

以下步驟都會在「Weka ARFF to CSV」網頁內進行：

在Input中的「Test data set ARFF file」選擇Test Data Set測試資料集；在「Buffer file」選擇result.txt預測結果。
在Result中，點選DOWNLOAD按鈕下載轉換後的檔案。
接著使用Google試算表或是LibreOffice Calc開啟CSV檔案，predictedclass就是我們要取得的預測結果。後面的「entropy」是我計算各機率分佈的Entropy亂度，亂度數字越高，分類正確性越低，0是最準確的數字。其他以「pro_dis」開頭的欄位是機率分佈，表示這個案例被分類在某一種分類的可能性。Weka會選擇機率分佈最高的那一個分類作為predictedclass的結果。當只有一個分類的機率分佈接近1時，表示這個分類模型的答案很明確，正確率很高。當機率分佈分散時，predictedclass的結果可能會有錯誤，需要多加注意。

最後的預測未知案例結果就是在原本的試算表檔案後面多加幾個欄位而已，很容易就能讓大家複製、貼上到原本的檔案中，再來進行後續的整理囉。

結語 / Conclusion

這段時間陸陸續續都在研究Weka的使用方法，現在總算是把Weka的分類預測步驟整理出一套比較簡單的操作方式了。

這一連串操作步驟中，最麻煩的就是Weka的ARFF格式。因為我們不太容易用自己習慣的試算表工具來編輯ARFF，所以我花了很多時間在做試算表檔案跟ARFF格式之間的轉換。

一旦這樣的流程確定下來，不管用什麼分類器都可以實際拿來作預測了，非常方便。

附帶一提，如果未知案例的分類目標是類別變項，例如預測「成功」或「失敗」，我們會稱這種預測叫做「分類問題」；如果分類目標是數值型的連續變項，例如預測「得分」、「漲跌幅度」，這種則叫做「回歸問題」。

希望大家能以這套做法為基礎，在實作的過程中一起來感受分類預測的魅力吧。

最後跟大家推薦「王者歸來: WEKA機器學習與大數據聖經」這本書，這大概是目前臺灣Weka教學最詳細的一本書了吧，從這本書可以瞭解Weka很多功能喔。

總共66 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

Unknown2017年5月8日上午11:11
您好，請問訓練資料集和測試資料集該如何準備? 測試資料集的 class 欄位一定要放上 ? 號，web 服務才會視為測試資料?
回覆刪除
回覆
匿名2017年5月9日晚上10:21
請問我要怎麼把
@RELATION sequential_test_set
@attritbute seq_id {1 2 3 4 5 6 7 8 9 10 11}
@attritbute item_id{0 1 2 3 4 5 6 7 8 9 10}

@data
1 1
1 6
1 7
1 3
1 9
2 6
2 7
2 3
2 8
2 9
2 10
3 6
3 7
3 2
3 7
3 3
3 8
4 3
4 2
4 1
4 6
4 7
4 3
4 9
5 4
5 5
5 3
5 1
5 2
6 6
6 5
6 1
6 3
6 2
7 7
7 8
7 9
7 10
8 6
8 9
8 10
8 8
8 3
9 4
9 9
9 10
9 8
9 1
10 6
10 10
10 8
10 9
10 7
11 5
11 10
11 8
11 9
11 6
11 3

這些資料用WEKA的GSP執行出來?
回覆刪除
回覆
Michael Chen2017年5月11日下午5:17

請問我使用您提供的工具，將buffer result轉換成csv檔，可是打開卻如上圖所示，與您呈現的結果不太一樣，難以判讀出分類預測的結果以及亂度為何，想請教您應該如何判讀？

備註：原始資料集是從UCI dataset上面下載，轉換成arff之後，先訓練出model，然後我再隨機設定10筆test set去跑。
回覆刪除
回覆
lin2017年8月10日下午5:13
您好，請問針對類別不同，資料比例不對稱的狀況下，是否先做平衡資料?另外我將資料檔案轉換成「訓練資料集」跟「測試資料集」之後，有更改幾個attribute,之後都按照步驟進行到最後，但最後結果entropy卻出現NaN。能否提點是哪個步驟錯誤了嗎?(新手剛接觸weka，若問了蠢問題請見諒~)

回覆刪除
回覆
linlin2017年8月14日下午2:30
作者已經移除這則留言。
回覆刪除
回覆
Unknown2017年9月11日上午11:14
你好，覺得你寫得超好懂，真希望有weka時間序列預測示範..謝謝。
回覆刪除
回覆
匿名2017年10月23日下午2:52
您好:想請問一下在第1大點中的第2步驟，我把檔案放上去(.ods)後等很久一直跑不出結果，想請教可能是什麼問題?謝謝!
回覆刪除
回覆
Unknown2017年11月2日上午11:24
作者已經移除這則留言。
回覆刪除
回覆
匿名2017年11月2日上午11:26
您好請問跑完預測結果，他那個結果要怎麼向您網頁提供那樣結合成CSV檔?
回覆刪除
回覆
匿名2017年12月2日晚上11:56
您好～
在使用weka我有一些問題想要請問您：
1. 因為鐵達尼號這題，需要預測生存與否，可是我在test.csv 中Survived這個屬性每個都打問號(?)被weka讀進來時，他會判讀為str格式，可是train.csv的Survived是用0,1來當作生或死，我目前想到方法就是在test.csv的第一行插入一筆從train.csv的其中一筆，讓test.csv中至少有一筆完整資料，這樣weka就能正確判讀Survived的屬性為Num，我想知道有沒有別得更好的方法，謝謝

2. 我在預測時，最後預測的資料只有100筆，可是test.csv應該有418筆資料，為什麼只預測100筆？我在網路上沒有找到解答，是不是我有哪裡設定有誤？
DATA: https://1drv.ms/f/s!AmtaiP3WIMAqhp1mOU0H1yyfmie4bA
Thank for your time. Appreciate:) !
-Nason
回覆刪除
回覆
Unknown2017年12月22日下午6:52
布丁大您好，

檔案位址：https://drive.google.com/open?id=1SkDlIKJybeSFPKd3Pf8VVVPWlH6n-kNT
我現在想用Train_1這個檔案當訓練，distance_sample1當測試，
，用的演算法是SMO，而其中的CLASS是0-5，
最後我發現把測試的資料順序打亂跟不打亂的結果是一樣的，(如csv_result-distance_sample1這個檔案所示)

另外我想問有甚麼辦法可以提高辨識率，因為55%真的很低ˊˋ

感恩不盡
回覆刪除
回覆
Unknown2018年9月11日凌晨2:10
TO 布丁大
不好意思想要請教幾個問題!
1.如過本身已經有train data跟test data，也按照上面步驟去弄，但一直跑不出一個正確的數據
2.如果檔案中沒有CLASS這的項目，我該如何去跑數據?
回覆刪除
回覆
匿名2019年4月3日下午3:27
請問大大

如果我原先輸入的變數很多項，得出來的預測結果跟原始資料做比對，能得到很高的準確率，那如果想縮減變數的話，期望也能得到像上述一樣高的準確率，那要如何操作呢?
回覆刪除
回覆
匿名2019年8月16日下午4:28
請問大大

我也跟著，但得到這樣的結果

=== Predictions on test set ===

inst#, actual, predicted, error, probability distribution
1 ? 1:Iris-set + *0.333 0.333 0.333
2 ? 1:Iris-set + *0.333 0.333 0.333
3 ? 1:Iris-set + *0.333 0.333 0.333

all are Iris-set ???
在哪裡我做錯了
回覆刪除
回覆
匿名2019年8月20日上午10:09
@_@ 它現在可以, need full dependency of weka - -
之前我只下載了jar :D
謝謝
回覆刪除
回覆
linlin2019年9月9日下午3:35
您好，我用了Weka Spreadsheet to ARFF把data分割為train data跟test data，Train data預測出來的結果sensitivity和specificity都有0.9和0.7，但再用test data去預測結果sensitivity和specificity只有0.2~0.5和0.7~0.9，是否有哪個步驟出問題呢?或是我的data可能出現什麼樣的狀況?另外除了分割train和test data兩個檔案，我也嘗試用過Weka裡面的percentage split 66~90%，結果sensitivity和specificity是0.9以上和0.2~0.3，請問這兩種方法有什麼樣的差異?煩請開導解惑....謝謝!!
回覆刪除
回覆
匿名2020年5月18日下午2:04
布丁你好請問現在還能問你問題嗎?
回覆刪除
回覆
匿名2020年6月2日凌晨12:27
今天寫報告想找找一些資料&想法
碰巧刷到這篇文～～
謝謝你，整理得很用心��
希望你能繼續更新��

y
回覆刪除
回覆
zoids607782020年6月8日下午1:16
您好請問一句評論有多個特徵(關鍵詞:客房、服務...等等)，我想判斷客房環境是否回正確or錯誤，請問這樣也能訓練呢?
因為我想要預測新評論看看是否TRUE or FALSE
回覆刪除
回覆
Unknown2020年9月25日下午3:27
老師好
7. 將outputDistribution設定改為「True」，按下「OK」一路推出回到分類面板。
請問這指令是從哪裡叫出來操作?

謝謝

回覆刪除
回覆
寶2020年12月2日凌晨1:51
您好～
我用TarinData的Model做了TestData的預測後，原先Train出來的資料有Accuracy，但Test預測出來並未如預期有Accuracy
請問這是正常的嗎？
回覆刪除
回覆