Weka 50 Comments Edit Copy Download

決策樹是資料探勘(data mining) 分類 (classifition)中的代表性演算法。它是一種監督式演算法，一般是用於預測、建立模型上。它可以協助我們將多維度的大量資料分析成為一些簡單易懂的規則。舉例來說，我們要如何判斷一個職缺好不好呢？我們可以從合約期間、薪資、工時、休假等候選屬性來判斷。決策樹可以幫你分析出第一年薪資會是判斷工作好壞的重要屬性，其次是法定假日。

這兒先不談決策樹背後複雜的演算法，我們可以直接使用開放原始碼的Weka就能簡單地建置一顆決策樹。這篇就是教大家如何使用Weka來建置決策樹的操作教學。

如何取得Weka？ / How to get Weka?
輸入資料 / Data for Mining
資料格式 / Data Format
建置決策樹的步驟 / Building Decision Tree Steps

如何取得Weka？ / How to get Weka?

Weka網站
Weka下載：有Windows x86(32位元)跟x64 (64位元)版本、Mac OS X版本、Linux版本，但是必須要先安裝Java Run Environment
Windows中的Weka安裝教學：資料探勘軟體Weka之安裝篇

關於Weka的介紹我在之前的「Weka的BayesNet分類器操作說明」已有說明，在此就不再重複介紹。

輸入資料 / Data for Mining

本教學使用的是Weka提供的範例資料 labor.arff，這是加拿大工業的勞工職缺資料，從至少500多人的資料中整理各種職缺的屬性資訊，以及這份職缺到底是可接受或不可接受的訓練樣本。

labor.arff : Google Drive、OneDrive、Box、Mega、MediaFire、GitHub

這份資料包含了16種屬性：

duration: 合約期間，1~7，數值變數。
wage-increase-first-year: 首年增加的工資，2.0~7.0，數值變數。
wage-increase-second-year: 第二年增加的工資，2.0~7.0，數值變數。
wage-increase-third-year: 第三年增加的工資，2.0~7.0，數值變數。
cost-of-living-adjustment: 生活津貼調整，沒有/tcf/tc (我不確定這是什麼意思)，名義變數。
working-hours: 每週工作時數，35~40，數值變數。
pension，退休金規劃，沒有/ret_allw/老闆提供，名義變數。
stand by-pay: 待命薪資，2~25，數值變數。
shift-differential: 工作從II轉換到III的補助 (不確定)，1~25，數值變數。
education-allowance: 教育津貼，有/沒有，名義變數。
statutory-holidays: 法定假日，9~15，數值變數。
vacation: 帶薪休假的天數，ba/avg(平均)/gnr，名義變數。
longterm-disability-assistance: 僱主對長期工作失能的補助，有/無，名義變數。
contribution-to-dental-plan: 僱主提供的牙醫就診補助，沒有/一半/全額，名義變數。
bereavement-assistance: 僱主對於喪親的補助，有/無，名義變數。
contribution-to-health-plan: 僱主補助員工健康的規劃，無/一半/全額，名義變數。

以及訓練樣本屬性：

class：可接受或不可接受 [名義變數]

資料格式 / Data Format

這份資料是以Weka的ARFF格式撰寫。這是一種Weka使用的純文字檔案格式，詳細可以看「Data Mining 學習路 - Day 7 資料處理第一步：（3）準備輸入檔案 ARFF」的說明。

Weka也可以使用預處理器將CSV格式轉換成ARFF。因此我們可以使用LibreOffice Calc來將資料儲存成CSV格式，再來匯入到Weka計算。作法請見LibreOffice Calc的說明。

建置決策樹的步驟 / Building Decision Tree Steps

安裝好Weka，有了資料之後，我們就可以來正式建置決策樹啦。

1. 開啟Weka / Open Weka GUI Chooser

請開啟安裝好的Weka。

2. 開啟Weka Explorer / Open Weka Explorer

選擇Explorer開啟。

3. 開啟檔案 / Open File

在Preproccess裡面點選「Open file…」，選擇準備好的檔案，例如labor.arff。

4. 切換到分類法頁籤 / Switch to Classify

確定資料正常載入之後，從上面的頁籤切換到「Classify」(分類法)裡面。

5. 選擇分類法 / Choose Classifier

在Classification底下按下「Choose」。

切換到「trees」資料夾，點選「J48」。

6. 選擇訓練樣本屬性 / Choose Training Tuples of Data

這一步要選擇一個屬性作為訓練決策樹的依據。這一步不一定要做，因為預設值它就幫我們選好了最後一個屬性。

如果你的資料中訓練決策樹的依據不是最後一個屬性，那就依照上圖手動選擇屬性吧。

7. 建立決策樹 / Creating Decision Tree

接著按下上圖 (A) 的「Start」。然後右邊Classifier output會顯示建置的數值。其中上圖(B)的「Correctly Classified Instances」表示這顆決策樹的正確率為73.6842%。(附帶一題，這個正確率在分類演算法中並不算高。)

8. 顯示決策樹 / Visualize Tree

接著在左邊的Result list中剛剛建置的結果上按滑鼠右鍵，選擇「Visualize tree」。

決策樹建置結果就出來了。

從這張圖中我們可以得知首年增加的薪資跟法定休假是重要的分類依據，整理的規則如下：

首年增加的薪資在2.5以下的話，則是不好的工作
首年增加的薪資大於2.5的話，則繼續看下列規則：

法定休假在10以下的話，則是不好的工作
法定休假在大於10的話，則是好的工作。

這樣就建置完成一顆決策樹了！

總共50 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

布丁布丁吃布丁2016年12月16日凌晨12:06
Weka裡面的分類演算法也有 Logistic Regression 羅吉士回歸，又快又好用，操作方式跟J48決策樹一樣，推薦給大家使用！
回覆刪除
回覆
Unknown2017年4月28日下午5:21
想請問安裝後想使用回歸功能，但回歸的演算法都反白，且點擊後也無法進行START，是什麼問題呢？
回覆刪除
回覆
Unknown2017年4月28日下午6:08
所以我的資料有需要定義為三種型態的話，就不適合在WEKA進行回歸處理囉？！因為資料格式會被定義為nominal，是這樣嗎？
回覆刪除
回覆
Unknown2017年9月17日下午3:23
布丁你好，想請問布丁Visualize tree後最下面leaf裡面的數字是代表什麼意思?

有些是0，有些是整數(Ex:1、23)，有些是分數或是小數(Ex:2.0/1.0、2.1)，還有些是小數形式的分數(Ex:2.1/1.3)

非常感謝布丁介紹Weka!!

回覆刪除
回覆
叩叩2018年6月5日晚上8:28
你好想請問我將資料投入，但J48不能使用原因為何呢?
投入資料有時間(DATE) 謝謝
回覆刪除
回覆
匿名2018年6月25日中午12:25
你好~想請問假設有1000筆資料
選擇前80%做為訓練資料後面20做為測試資料 test options:percentage split:80
其中沒有缺值有沒有像iris資料中的?需預測
想了解前面資料訓練出來的模型是否準確所以才用後面20去驗證
這樣的作法是正確的嗎
回覆刪除
回覆
匿名2018年7月17日晚上9:04
請問如果想提升J48決策樹的準確度(80%提升到100%)除了改投入的數據外，有沒有其他方法可以提升
回覆刪除
回覆
Unknown2020年4月8日凌晨12:17
請問要如何將CSV或Excel格式轉換成ARFF，謝謝!
回覆刪除
回覆
Unknown2020年4月8日晚上10:07
成功了，謝謝您!
回覆刪除
回覆
Unknown2020年4月10日凌晨12:19
老師您好
因為最近想分析關於旅遊評論的資料
看了您介紹了幾種分類器之後
有問題想請教一下

像是這段評論，「房間乾淨很新，服務很好，步行台北車站只需10分鐘，周圍遍布餐廳，購物很便宜」。
因為一段話裡有多種特徵，所以我想分類成已知的5個class，分別為客房乾淨、交通便利、周遭環境、飯店服務，其他等
共有10000筆資料想讓weka去判斷這些評論分別會是在哪種class裡

請問NaiveBayesMultinomialText這個分類器適用嗎?或是有推薦的嗎?

另外我有看到您的實驗範例關於籃球和地球的2種類別判定，但一句話只有2種判別，我想訓練成一句話要顯示2種以上的判別，請問這種的weka做得到嗎?
這樣csv檔中的class格式要怎麼做，可以麻煩您教我一下嗎?謝謝您
回覆刪除
回覆
Unknown2020年4月29日下午4:12
請問WEKA要如何分析問卷效度效度
還有問卷如果有複選題的部分要如何編碼
目前看文章學會使用決策數分析了非常感謝
回覆刪除
回覆
Unknown2020年5月13日上午9:34
您好，
請問如果J48決策樹所呈現的樹，由於樹的枝葉太多，無法從圖看出規則，怎麼修改會比較好?
回覆刪除
回覆
Unknown2021年1月11日下午1:37
老師您好請問用 j48 建模訓練資料正確率99.2278% 測試資料正確率96.0265 % 這樣是否有overfitting 要如何判斷謝謝
回覆刪除
回覆
Sarah2021年8月18日下午3:47
老師您好，謝謝您的教學文章！幫助很多！！
想請問，如果決策樹準確率很低(<50%)，是不是代表目前的 attribute都無關緊要QQ，除了再找其他 attribute，還可以怎麼做？換其他演算法可以有不同結果嗎？(找出關鍵因素)
回覆刪除
回覆
布丁布丁吃布丁2021年9月27日下午5:28
由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結，在此做個記錄。
回覆刪除
回覆
匿名2023年5月22日下午5:21
您好，請問以下題該怎麽做？
Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料，從至少500多人的資料中整理各種職缺的屬性資訊，以及這份職缺最後被員工評比為好 (class: good) 或壞 (class: bad)。試分析這份資料：
1. 以你所知的各種分類方法 (e.g. logistic regression, decision tree, kNN SVM, RandomForest, Ensemble methods, etc.) 與資料切分技巧 (e.g. training/test, cross-validation, etc.) 建構職缺好壞的各種分類模型。解釋這些分類模型結果，並利用各種指標 (e.g. ROC, Recall, Precision, F1, etc.) 評估這些分類模型並討論其效能。
2. 社會新鮮人欲求得一份好職缺，根據分類模型，你會建議他要多注意哪些職缺屬性？
回覆刪除
回覆
阿丹2024年3月12日下午2:24
您好，最近因論文內容需要使用WEKA，CSV資料數大概30萬筆。
目前遇到一個狀況是因資料量過大跑weka的J48決策樹和K-means時會因記憶體不足而跳掉，有試過去調整weka內的最大記憶體也調成32g了，但在跑資料時還是會跳出記憶體不夠的警示，請問該如何解決?
回覆刪除
回覆
匿名2024年4月29日晚上8:45
老師您好，最近遇到一個問題是我使用J48後最下面都會卡在building model on training data，右下角那隻鳥也會顯示0且沒有動作，然後展開決策樹那邊是灰字無法點選。
原始資料跑是可以正常展開決策樹，使用oner刪減部分屬性後再跑決策樹就卡那問題，想請問老師您有方法解決嗎?
回覆刪除
回覆
匿名2024年5月22日上午10:16
請問老師，J48決策樹每個leaf中括號的數字是代表甚麼? e.g. YES(14.0/6.0) <==說明書中前面14.0指的是符合該分支的總筆數，後面6.0指的是該分支分類錯誤的筆數。如果是這樣，那把整棵決策樹上所有leaf的筆數加起來，前面應該會等於總資料筆數，後面應該會等於全部猜錯的筆數。但是對照跑出來的confusion matrix, 總筆數是對的，但是錯誤筆數(a 分類b 或b分類成a)卻怎麼也對不起來，到底是哪裡理解錯了?
回覆刪除
回覆
匿名2024年11月8日上午9:03
布丁大大您好，想請問如何使用HoeffdingTree演算法進行增量學習，照理來說模型會根據放入的測試數據而更新，但好像並沒有改變。
回覆刪除
回覆

Comment Tools:

訂閱：張貼留言 (Atom)

布丁布丁吃什麼？

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

5月 19, 2016 研究方法 , 電腦軟體 , Data Mining , Software/Weka 50 Comments Edit Copy Download

如何取得Weka？ / How to get Weka?

輸入資料 / Data for Mining

資料格式 / Data Format

建置決策樹的步驟 / Building Decision Tree Steps

1. 開啟Weka / Open Weka GUI Chooser

2. 開啟Weka Explorer / Open Weka Explorer

3. 開啟檔案 / Open File

4. 切換到分類法頁籤 / Switch to Classify

5. 選擇分類法 / Choose Classifier

6. 選擇訓練樣本屬性 / Choose Training Tuples of Data

7. 建立決策樹 / Creating Decision Tree

8. 顯示決策樹 / Visualize Tree

總共50 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

聯絡布丁

Buy Me A Coffee (Donate)

Labels (All Labels)

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial 5月 19, 2016 研究方法 , 電腦軟體 , Data Mining , Software/Weka 50 Comments Edit Copy Download

如何取得Weka？ / How to get Weka?

輸入資料 / Data for Mining

資料格式 / Data Format

建置決策樹的步驟 / Building Decision Tree Steps

1. 開啟Weka / Open Weka GUI Chooser

2. 開啟Weka Explorer / Open Weka Explorer

3. 開啟檔案 / Open File

4. 切換到分類法頁籤 / Switch to Classify

5. 選擇分類法 / Choose Classifier

6. 選擇訓練樣本屬性 / Choose Training Tuples of Data

7. 建立決策樹 / Creating Decision Tree

8. 顯示決策樹 / Visualize Tree

Related Posts

總共50 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

About Me

布丁布丁吃布丁

Luminous Blessing (Donors)

Facebook Fanpage

Random Posts

Guestbook

Comments

Recent Posts

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

5月 19, 2016 研究方法 , 電腦軟體 , Data Mining , Software/Weka 50 Comments Edit Copy Download

總共50 則留言 ( 我要發問 , 隱藏留言顯示留言 )