Weka 6 Comments Edit Copy Download

Weka除了用Explorer來預測未知之外，還能透過指令列直接操作，以便跟其他程式，像是AutoIT的Run()進行整合。這篇就是要示範如何使用指令列來操作Weka進行SMO跟LibSVM兩種分類器的預測。

預測的指令列使用方法 / Prediction Command Line Usage
進行預測 / Prediction
小結 / In closing

預測的指令列使用方法 / Prediction Command Line Usage

Weka作為一個Java的函式庫，就可以用Java的指令列呼叫方式直接使用Weka。然而，由於有時候我們還會用Weka的Package Manger安裝其他套件的關係，呼叫Weka的方式就不能用最單純的引用jar檔來執行預測這麼簡單。

我試了幾種呼叫Weka方式之後，最後找到可以正常運作的Weka預測指令如下：

java -cp "C:\Program Files\Weka-3-8\weka.jar" weka.Run weka.classifiers.functions.SMO -T iris-test-set.arff -l iris-smo.model -p 0

以下個別說明每個部分指令的功用，紅色文字表示可能會需要修改的參數：

java：使用Java的JVM來執行後面的指令。如果你能夠正常使用Weka的Explorer，表示你已經正常安裝Java運作環境JRE，這樣就能用這個java指令。
-cp "C:\Program Files\Weka-3-8\weka.jar"：-cp是指定JVM到後面的路徑底下搜尋Java的類別(請參考「Java基礎教程-運行及配置（一）」)，後面的「"C:\Program Files\Weka-3-8\weka.jar"」就是Weka安裝目錄底下的「weka.jar」檔案。注意前後要用雙引號「"」框起來，以免Program Files這個路徑被視為是兩個參數。
weka.Run：要Weka執行後面的指令。
weka.classifiers.functions.SMO：預測所使用的分類器。
-T iris-test-set.arff：-T表示後面指定的是測試集(注意，是大寫T不是小寫t)，而「iris-test-set.arff」就是測試集檔案的路徑。
-l iris-smo.model：-l表示載入分類模型，而「iris-smo.model」就是分類模型的路徑。分類模型的部分後面我會介紹。
-p 0：-p表示指定預測要使用的特徵(attributes)範圍，不過-p 0是特殊用法，會直接輸出預測結果。

上面有幾個紅色文字是我們可以自訂的參數，以下我繼續說明這些參數是怎麼來的。

weka.jar的位置 / Location of weka.jar

Weka的所有核心功能都在weka.jar中。預設weka.jar會放在Weka的安裝目錄底下，通常會是以下路徑：

C:\Program Files\Weka-3-8\weka.jar

許多教學會直接引用額外的weka.jar，你也可以從「Download weka-stable-3.8.0.jar file」直接下載3.8版純weka.jar檔案並放在你的伺服器上。不過這種方法只能使用Weka的基本功能，如果會用到Pacakge Manager安裝的其他功能時就很容易發生錯誤。也許「Problem evaluating classifier: libsvm classes not in CLASSPATH」這篇可以解決這個問題，不過最簡單的方式還是在指令列直接呼叫你在Explorer使用的Weka，這樣通常比較不會有問題。

分類器 / Classifier

在預測之前，我們要先決定好要使用的分類器與分類模型。分類器可以在進行預測建模時的結果輸出Classifier output最上面的Scheme中找到它的全名。以SMO來說，它的全名是「weka.classifiers.functions.SMO」。而使用Package Manager額外安裝的外掛LibSVM，它的全名則是「weka.classifiers.functions.LibSVM」。

一般來說，我們要評估正確率最高、又不會過擬合(overfitting)的分類器。分類器的選擇有很多考量，這就不是本篇要討論的重點。總之，要選擇一種分類器就是了。

關於分類器的操作方式，請參考「用Weka分類模型來預測未知案例」這篇。

在這個例子中，我以IRIS資料集作為訓練樣本，各別使用兩種實作支持向量機SVM的「weka.classifiers.functions.SMO」跟「weka.classifiers.functions.LibSVM」分類器。不同的分類器會對應到不同的分類模型，請看下面的說明。

分類模型的位置 / Location of stored classifier model

在決定好要使用的分類器之後，我們要把分類結果儲存成模型檔案(Model)。請在左下角的「Result list」按右鍵，選擇「Save model」。Weka不會為分類模型加上任何副檔名，為了方便識別，我建議將檔案命名為資料集與分類器的名稱，而副檔名則加上.model。

在這個例子中，我準備了兩個分類模型供大家直接下載練習：

iris-smo.model：這是我以IRIS資料集作為訓練樣本用「weka.classifiers.functions.SMO」所建立的模型。
iris-libsvm.model：這是我同樣以IRIS資料集作為訓練樣本用「weka.classifiers.functions.LibSVM」所建立的模型。

待預測的測試集 / Test set for prediction

接著我們要準備一個需要預測的測試集檔案。實際使用時，我們可以用任何程式來將需要預測的案例組合成測試集檔案，以便用Weka來進行預測。測試集的資料格式(@attribute的部分)必須與上面建立分類模型時使用的訓練集一樣，只是class特徵為「?」表示待預測，這樣才能用建立好的分類模型進行預測。測試集的內容請用Weka的ARFF格式來撰寫，省下轉換的額外手續。

我從IRIS資料集中挑選了一筆案例，將class特徵改為「?」，簡單地完成了一筆案例的IRIS測試集。你可以從下面網址下載該測試集來練習：

iris-test-set.arff

ARFF檔案內容 / ARFF format

該測試集的檔案內容如下：

@relation iris

@attribute sepallength numeric
@attribute sepalwidth numeric
@attribute petallength numeric
@attribute petalwidth numeric
@attribute class {Iris-setosa,Iris-versicolor,Iris-virginica}

@data
5.9,3,5.1,1.8,?

在此順便說明一下Weka的ARFF格式。@relation後面寫的是資料集的名稱，分類預測時不使用。@attribute後面接的是特徵名稱跟資料類型，numeric資料類型表示是連續資料，而class特徵後面以{}框起來的三種不同的類別資料，表示class是一個類別資料。@data換行後，下面每一行都是一筆案例，而案例的特徵使用逗號隔開。@data後面的格式就跟CSV的格式一樣。

進行預測 / Prediction

一旦準備好Weka的預測指令之後，我們就可以用該指令來預測了。跟上圖一樣的，我們使用的預測指令如下：

java -cp "C:\Program Files\Weka-3-8\weka.jar" weka.Run weka.classifiers.functions.SMO -T iris-test-set.arff -l iris-smo.model -p 0

執行後，如果參數中的路徑都沒寫錯，那就可以得到如下的預測結果：

=== Predictions on test data ===

inst# actual predicted error prediction
1 1:? 3:Iris-virginica 0.667

因為我們輸入的測試集只有一筆案例，所以這裡只輸出一筆案例的預測結果。在?後面的「3:Iris-virginica」表示是第三個類別「Iris-virginica」。而後面的「0.667」表示分類模型預測該結果的可能機率。分類模型會選擇可能機率最大的分類結果作為該案例的預測結果，這個意思就是分類模型預測該測試集的案例有「66.7%」的機率會是「Iris-virginica」。

這樣子就完成用指令列操作Weka進行預測囉。

小結 / In closing

圖 / 維基百科

雖然Weka可以用Java程式碼來呼叫，但現在寫Java的機會越來越少，還是指令列比較容易跟其他的程式一起搭配，包括AutoIT。現在這篇整理好Weka用指令列來進行預測的方式後，我們就能用AutoIT來使用Weka囉。

布丁布丁吃什麼？