Comments on 布丁布丁吃什麼？: Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

您好， https://stackoverflow.com/a/33234589 根據ykh的建議...

2024-11-08T20:17:36.839+08:00

您好，

https://stackoverflow.com/a/33234589
根據ykh的建議，在第一次建立模型之後，接下來要用update model的方式來更新。

用Training.arff訓練集建置成ht.model模型的指令：
````
java weka.classifiers.trees.HoeffdingTree -L 2 -S 0 -E 1.0E-7 -H 0.1 -M 0.01 -G 200.0 -N 0.0 -t Training.arff -no-cv -d ht.model
````

用Testing.arff測試集來更新模型，產生ht.updated.model：
````
java weka.classifiers.trees.HoeffdingTree -t Training.arff -T Testing.arff -l ht.model -d ht.updated.model
````

https://www.futurelearn.com/info/courses/advanced-data-mining-with-weka/0/steps/29464
操作教學可以參考這裡的影片，也可以用Explorer來操作：「Incremental classifiers in Weka」

可以試試看！

布丁大大您好，想請問如何使用HoeffdingTree演算法進行增量學習，照理來說模型會根據放入的測...

2024-11-08T09:03:00.324+08:00

布丁大大您好，想請問如何使用HoeffdingTree演算法進行增量學習，照理來說模型會根據放入的測試數據而更新，但好像並沒有改變。

您好， https://stackoverflow.com/a/16418763 後面的數字是加...

2024-05-24T11:09:07.407+08:00

您好，

https://stackoverflow.com/a/16418763

後面的數字是加權後的錯誤筆數。

請問老師，J48決策樹每個leaf中括號的數字是代表甚麼? e.g. YES(14.0/6.0) &...

2024-05-22T10:16:06.111+08:00

請問老師，J48決策樹每個leaf中括號的數字是代表甚麼? e.g. YES(14.0/6.0) <==說明書中前面14.0指的是符合該分支的總筆數，後面6.0指的是該分支分類錯誤的筆數。如果是這樣，那把整棵決策樹上所有leaf的筆數加起來，前面應該會等於總資料筆數，後面應該會等於全部猜錯的筆數。但是對照跑出來的confusion matrix, 總筆數是對的，但是錯誤筆數(a 分類b 或b分類成a)卻怎麼也對不起來，到底是哪裡理解錯了?

不客氣，加油。

2024-05-10T11:19:09.888+08:00

不客氣，加油。

了解，感謝老師。

2024-05-08T02:41:09.514+08:00

了解，感謝老師。

您好，可以從Weka log檢查看看是哪邊出了問題。我不確定你的oner是怎麽刪減的。但可能...

2024-04-30T20:35:51.665+08:00

您好，

可以從Weka log檢查看看是哪邊出了問題。

我不確定你的oner是怎麽刪減的。但可能是在處理資料的過程中，發生了資料格式錯誤、編碼被修改的狀況。
又可能是你的目標類別被移除，或是只剩下一種類別。

狀況很多，但幾乎都是因為你的資料出了問題才無法進行分析。
所以最後還需要回頭檢查資料本身。

老師您好，最近遇到一個問題是我使用J48後最下面都會卡在building model on trai...

2024-04-29T20:45:40.186+08:00

老師您好，最近遇到一個問題是我使用J48後最下面都會卡在building model on training data，右下角那隻鳥也會顯示0且沒有動作，然後展開決策樹那邊是灰字無法點選。
原始資料跑是可以正常展開決策樹，使用oner刪減部分屬性後再跑決策樹就卡那問題，想請問老師您有方法解決嗎?

To 阿丹，這比較像是演算法問題帶來的原罪。 Weka畢竟是教學跟研究的產物，使用上還是有上限。...

2024-03-13T22:56:58.983+08:00

To 阿丹，

這比較像是演算法問題帶來的原罪。
Weka畢竟是教學跟研究的產物，使用上還是有上限。

當資料量一大、要在正式的環境執行時，我們還是選擇一些主流的框架來執行吧。

現在比較多人知道的大概是用Python的Pandas套件來做資料的串流分析，避免一口氣載入太多資料量，讓記憶體爆炸。

以前一段時間流行的是 Apache Spark
https://spark.apache.org/
分群演算法說明：https://spark.apache.org/docs/latest/ml-clustering.html
但Apache Spark也是用程式碼在操作就是了。

https://stackoverflow.com/questions/60411391/can-i-process-100-gb-of-data-using-apache-spark-on-my-local-machine
至於30萬筆的CSV到底算不算是大數據呢？
這種用程式處理的方式，100GB的檔案都不在話下了。

----

最後我只能感嘆的是，
教學是教學，實務工作還是實務工作。

教學的目的是一步一步讓大家瞭解整個過程。
實務工作就會包裝、簡化、提升效率。
兩者還是不太一樣的啊。

您好，最近因論文內容需要使用WEKA，CSV資料數大概30萬筆。目前遇到一個狀況是因資料量過大跑w...

2024-03-12T14:24:12.198+08:00

您好，最近因論文內容需要使用WEKA，CSV資料數大概30萬筆。
目前遇到一個狀況是因資料量過大跑weka的J48決策樹和K-means時會因記憶體不足而跳掉，有試過去調整weka內的最大記憶體也調成32g了，但在跑資料時還是會跳出記憶體不夠的警示，請問該如何解決?

您好，看起來是課堂作業呢。請自己加油吧！

2023-05-22T23:07:31.374+08:00

您好，

看起來是課堂作業呢。
請自己加油吧！

您好，請問以下題該怎麽做？ Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料，從...

2023-05-22T17:21:47.977+08:00

您好，請問以下題該怎麽做？
Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料，從至少500多人的資料中整理各種職缺的屬性資訊，以及這份職缺最後被員工評比為好 (class: good) 或壞 (class: bad)。試分析這份資料：
1. 以你所知的各種分類方法 (e.g. logistic regression, decision tree, kNN SVM, RandomForest, Ensemble methods, etc.) 與資料切分技巧 (e.g. training/test, cross-validation, etc.) 建構職缺好壞的各種分類模型。解釋這些分類模型結果，並利用各種指標 (e.g. ROC, Recall, Precision, F1, etc.) 評估這些分類模型並討論其效能。
2. 社會新鮮人欲求得一份好職缺，根據分類模型，你會建議他要多注意哪些職缺屬性？

由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結，在此做個記錄。

2021-09-27T17:28:52.735+08:00

由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結，在此做個記錄。

To Sarah, 正確率的高低要跟您的資料集做比較您的Class種類多達5類，那正確率通常不...

2021-09-22T22:10:29.537+08:00

To Sarah,

正確率的高低要跟您的資料集做比較

您的Class種類多達5類，那正確率通常不高
一般的情況下基準是20% 。五種選項，全部只猜A，那最低的正確率就是20%。

仔細一點你可以考慮數量最多的類別。
假設Class=A佔了全部資料集的60%，是最多的類別。
那你的比較基準就是60%。
也就是不看任何feature，矇眼猜A的情況下，正確率高達6成。

請以這個基準來看看你的準確率是否合理。

要更進一步的話，還可以用卡方檢定來評估你的模型正確率是否有顯著優於比較基準。

總之，我想講的重點是：你要追求的不是100%正確率，而是跟比較基準相比更好。

謝謝老師!! 不好意思想再請問一下,如果準確率低(49.56%),但是 RMSE也低(0.3631)...

2021-09-14T14:03:27.512+08:00

謝謝老師!!
不好意思想再請問一下,如果準確率低(49.56%),但是 RMSE也低(0.3631),這樣此模型算是好的(能代表解釋資料)嗎?

Correctly Classified Instances 676 49.5601 %
Incorrectly Classified Instances 688 50.4399 %
Kappa statistic 0.2478
Mean absolute error 0.2444
Root mean squared error 0.3631
Relative absolute error 86.8056 %
Root relative squared error 96.807 %
Total Number of Instances 1364

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0.515 0.241 0.465 0.515 0.489 0.266 0.693 0.455 A
0.679 0.372 0.570 0.679 0.620 0.303 0.690 0.579 G
0.196 0.025 0.415 0.196 0.267 0.244 0.656 0.201 B
0.000 0.004 0.000 0.000 0.000 -0.013 0.702 0.090 BB
0.270 0.109 0.330 0.270 0.297 0.175 0.679 0.272 GG

To Sarah, # 如何提高正確率？ 1. 更多的資料：更多的案例數量，更多的特徵 2. 更...

2021-09-05T15:59:57.162+08:00

To Sarah,

# 如何提高正確率？

1. 更多的資料：更多的案例數量，更多的特徵
2. 更換演算法
3. 使用特徵轉換演算法：可以搭配Attribute Selection試試看

不一定是特徵的問題。
但從學術研究的角度來說，最好蒐集的特徵跟要預測的目標之間有理論的支持。
舉個例子來說，我們可能會認爲國文成績不錯的人，學習英文的時候表現也比較好。
但是如果比較國小學生在腳掌大小跟英文成績之間的關係，也可以發現腳掌越大的學生，英文成績居然也會更好。

至於爲何如此，就留給你去找答案了。

# 能夠找出關鍵因素嗎？

很多人想要做這件事情，但大家對於「關鍵因素」的定義都過於模糊。

就我目前的經驗總結下來，大致上可以分成兩種：
1. 將「關鍵因素」視爲單一屬性：最後結果會是「能夠區別結果的屬性中，最相關的屬性由高到低排序爲：屬性B、屬性A、屬性C」，此時請使用Attribute Selection。
2. 將「關鍵因素」視爲屬性在一定範圍內的情況：最後結果會是「當屬性B小於平均值時，最可能導致結果A」，此時請使用Subgroup Discovery。https://blog.pulipuli.info/2018/01/cortana-discovery-knowledge-in-your.html

請根據自己的需求來選擇對應的分析方法。

老師您好，謝謝您的教學文章！幫助很多！！想請問，如果決策樹準確率很低(<50%)，是不是代表...

2021-08-18T15:47:51.794+08:00

老師您好，謝謝您的教學文章！幫助很多！！
想請問，如果決策樹準確率很低(<50%)，是不是代表目前的 attribute都無關緊要QQ，除了再找其他 attribute，還可以怎麼做？換其他演算法可以有不同結果嗎？(找出關鍵因素)

您好，讓我們來看看overfitting的定義。 https://www.wikiwand.co...

2021-01-11T20:21:05.213+08:00

您好，

讓我們來看看overfitting的定義。
https://www.wikiwand.com/zh-tw/%E9%81%8E%E9%81%A9

overfitting是一個相對的概念。主要是說，現在訓練好的模型若發生了overfitting，那該模型可能就只能適用於既有的訓練資料(training data)。而在處理新的未知資料時，模型就無法正確預測。
換句話說，光看自己的訓練資料，我們無法得知這樣的模型是否有overfitting的情況發生，需要搭配訓練資料之外的其他資料，例如測試資料(test data)。

你列出了訓練資料跟測試資料的正確率，但若要判斷是否發生overfitting，我們還需要考慮到不正確的程度。

如果是類別資料的話，常用的指標是召回率或F1 measure
https://www.wikiwand.com/zh/F-score

如果是連續數值的資料，常用的指標就是RMSE (root-mean-square error)，誤差平方根。
https://www.wikiwand.com/zh-tw/%E5%9D%87%E6%96%B9%E6%A0%B9%E8%AF%AF%E5%B7%AE

因為你用了正確率這個詞，可以知道你的class使用的是類別類型資料
F1 measure已經包含了正確率的概念，所以我們直接比較訓練資料跟測試資料的F1 measure就好了

如果測試資料的F1 measure小於訓練資料的F1 measure，表示有overfitting的現象發生
但到底差異多少才算是overfitting，這個並沒有固定的標準。

----

比起在意有沒有overfitting的現象，我們更注重的是如何降低發生overfitting的機率
常見的做法是在訓練模型時使用dropout
https://www.wikiwand.com/zh-tw/Dropout

或是在驗證模型時採用cross-validation
https://www.wikiwand.com/zh-tw/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89

通常cross-validation產生的評估指標會比較低，看起來好像不太準
但這卻比較能夠反映真實現況，讓使用模型的人對於模型的預測結果不要保持太高的信心

----

很多機器學習的教學都只教訓練資料建模跟測試資料驗證
這樣學起來很簡單，但並不實用，我的教學都不會這樣教

有興趣的話可以看我之前的課程內容
http://blog.pulipuli.info/2017/10/applications-of-big-data-and-statistics.html#postcataapplications-of-big-data-and-statistics.html0_anchor6

老師您好請問用 j48 建模訓練資料正確率99.2278% 測試資料正確率96.0265 % ...

2021-01-11T13:37:47.288+08:00

老師您好請問用 j48 建模訓練資料正確率99.2278% 測試資料正確率96.0265 % 這樣是否有overfitting 要如何判斷謝謝

To Unknown, 看你的目的。如果你的目的是要正確預測，那就不用糾結決策樹的結構，Wek...

2020-05-13T15:09:50.332+08:00

To Unknown,

看你的目的。

如果你的目的是要正確預測，那就不用糾結決策樹的結構，Weka電腦自己看得懂，就會幫你去預測。

如果你的目的是要解釋屬性和目標屬性之間的關係，請選擇其他分析方法

子群組探勘
http://blog.pulipuli.info/2018/01/cortana-discovery-knowledge-in-your.html

多元迴歸
http://blog.pulipuli.info/2017/06/spss-interpreting-multiple-regression.html

您好，請問如果J48決策樹所呈現的樹，由於樹的枝葉太多，無法從圖看出規則，怎麼修改會比較好?

2020-05-13T09:34:47.450+08:00

您好，
請問如果J48決策樹所呈現的樹，由於樹的枝葉太多，無法從圖看出規則，怎麼修改會比較好?

你好， 1. 問卷的效度分析請使用R或SPSS。 2. 如果問卷有複選題，請拆開成多個屬性，然後...

2020-04-30T18:59:44.507+08:00

你好，

1.
問卷的效度分析請使用R或SPSS。

2.
如果問卷有複選題，請拆開成多個屬性，然後個別給true / false的值
舉例來說：
您喜歡吃的肉類： [ ] 牛肉 / [v] 豬肉 / [v] / 羊肉

那資料就會整理成

您喜歡吃的肉類_牛肉,您喜歡吃的肉類_豬肉,您喜歡吃的肉類_羊肉
false,true,true

就這樣整理

3.
不客氣

請問WEKA要如何分析問卷效度效度還有問卷如果有複選題的部分要如何編碼目前看文章學會使用決策數分...

2020-04-29T16:12:22.166+08:00

請問WEKA要如何分析問卷效度效度
還有問卷如果有複選題的部分要如何編碼
目前看文章學會使用決策數分析了非常感謝

您好，如果對文本分類有問題，建議到對應的文章下詢問： 1. 可以使用NaiveBayesMu...

2020-04-10T20:29:26.292+08:00

您好，

如果對文本分類有問題，建議到對應的文章下詢問：

1.
可以使用NaiveBayesMultinomialText，但它要求資料屬性是String，然後會自動做些文字前處理

關於資料類型NominalToString的方法，請看「發掘文件中的主題：Weka分群應用於文本探勘」這篇中「3-3. 類別轉換成字串」的說明
http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html#postcataweka-discover-topic-of-text-collection.html0_anchor13

2.

「因為一段話裡有多種特徵，所以我想分類成已知的5個class，分別為客房乾淨、交通便利、周遭環境、飯店服務，其他等」
這有兩種情況：

2a.
一個class裡面有五種不同的結果「客房乾淨」、「交通便利」、「周遭環境」、「飯店服務」、「其他」
那就直接操作就可以了

可以看這篇「非結構化資料分析：文本分類」的說明
http://blog.pulipuli.info/2017/10/unstructured-text-analytics-text.html

2b.
想要個別判斷是不是具有「客房乾淨」、「交通便利」、「周遭環境」、「飯店服務」、「其他」這些結果
那這個就是多目標分類Multi-label/Multi-target的問題
http://www.jmlr.org/papers/v17/12-164.html

比較簡單的做法是做成五個不同的資料集，建立五個獨立判斷的分類器

舉例來說：

客房乾淨分類器
屬性：評論、是否客房乾淨(True/False)

交通便利分類器
屬性：評論、是否交通便利(True/False)

以此類推

3.

如果您想要找尋其他可能的分類，那就需要用主題分析的方法

除了找出詞頻最高的詞彙之外，比較簡單的方式可以參考「發掘文件中的主題：Weka分群應用於文本探勘」這篇
http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html#postcataweka-discover-topic-of-text-collection.html0_anchor13

因為這是探索式的分析，結果不會直接告訴您「需要加入：「是否隔音佳」目標屬性」
但這是讓您找尋潛在主題的一個簡單方法

大概就這樣

老師您好因為最近想分析關於旅遊評論的資料看了您介紹了幾種分類器之後有問題想請教一下像是這...

2020-04-10T00:19:23.686+08:00

老師您好
因為最近想分析關於旅遊評論的資料
看了您介紹了幾種分類器之後
有問題想請教一下

像是這段評論，「房間乾淨很新，服務很好，步行台北車站只需10分鐘，周圍遍布餐廳，購物很便宜」。
因為一段話裡有多種特徵，所以我想分類成已知的5個class，分別為客房乾淨、交通便利、周遭環境、飯店服務，其他等
共有10000筆資料想讓weka去判斷這些評論分別會是在哪種class裡

請問NaiveBayesMultinomialText這個分類器適用嗎?或是有推薦的嗎?

另外我有看到您的實驗範例關於籃球和地球的2種類別判定，但一句話只有2種判別，我想訓練成一句話要顯示2種以上的判別，請問這種的weka做得到嗎?
這樣csv檔中的class格式要怎麼做，可以麻煩您教我一下嗎?謝謝您

Comments on 布丁布丁吃什麼？: Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

您好， https://stackoverflow.com/a/33234589 根據ykh的建議...

布丁大大您好，想請問如何使用HoeffdingTree演算法進行增量學習，照理來說模型會根據放入的測...

您好， https://stackoverflow.com/a/16418763 後面的數字是加...

請問老師，J48決策樹每個leaf中括號的數字是代表甚麼? e.g. YES(14.0/6.0) &...

不客氣，加油。

了解，感謝老師。

您好， 可以從Weka log檢查看看是哪邊出了問題。 我不確定你的oner是怎麽刪減的。但可能...

老師您好，最近遇到一個問題是我使用J48後最下面都會卡在building model on trai...

To 阿丹， 這比較像是演算法問題帶來的原罪。 Weka畢竟是教學跟研究的產物，使用上還是有上限。...

您好，最近因論文內容需要使用WEKA，CSV資料數大概30萬筆。 目前遇到一個狀況是因資料量過大跑w...

您好， 看起來是課堂作業呢。 請自己加油吧！

您好，請問以下題該怎麽做？ Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料，從...

由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結，在此做個記錄。

To Sarah, 正確率的高低要跟您的資料集做比較 您的Class種類多達5類，那正確率通常不...

謝謝老師!! 不好意思想再請問一下,如果準確率低(49.56%),但是 RMSE也低(0.3631)...

To Sarah, # 如何提高正確率？ 1. 更多的資料：更多的案例數量，更多的特徵 2. 更...

老師您好，謝謝您的教學文章！幫助很多！！ 想請問，如果決策樹準確率很低(<50%)，是不是代表...

您好， 讓我們來看看overfitting的定義。 https://www.wikiwand.co...

老師您好 請問用 j48 建模 訓練資料 正確率99.2278% 測試資料正確率96.0265 % ...

To Unknown, 看你的目的。 如果你的目的是要正確預測，那就不用糾結決策樹的結構，Wek...

您好， 請問如果J48決策樹所呈現的樹，由於樹的枝葉太多，無法從圖看出規則，怎麼修改會比較好?

你好， 1. 問卷的效度分析請使用R或SPSS。 2. 如果問卷有複選題，請拆開成多個屬性，然後...

請問WEKA要如何分析問卷效度效度 還有問卷如果有複選題的部分要如何編碼 目前看文章學會使用決策數分...

您好， 如果對文本分類有問題，建議到對應的文章下詢問： 1. 可以使用NaiveBayesMu...

老師 您好 因為最近想分析關於旅遊評論的資料 看了您介紹了幾種分類器之後 有問題想請教一下 像是這...

您好，可以從Weka log檢查看看是哪邊出了問題。我不確定你的oner是怎麽刪減的。但可能...

To 阿丹，這比較像是演算法問題帶來的原罪。 Weka畢竟是教學跟研究的產物，使用上還是有上限。...

您好，最近因論文內容需要使用WEKA，CSV資料數大概30萬筆。目前遇到一個狀況是因資料量過大跑w...

您好，看起來是課堂作業呢。請自己加油吧！

To Sarah, 正確率的高低要跟您的資料集做比較您的Class種類多達5類，那正確率通常不...

老師您好，謝謝您的教學文章！幫助很多！！想請問，如果決策樹準確率很低(<50%)，是不是代表...

您好，讓我們來看看overfitting的定義。 https://www.wikiwand.co...

老師您好請問用 j48 建模訓練資料正確率99.2278% 測試資料正確率96.0265 % ...

To Unknown, 看你的目的。如果你的目的是要正確預測，那就不用糾結決策樹的結構，Wek...

您好，請問如果J48決策樹所呈現的樹，由於樹的枝葉太多，無法從圖看出規則，怎麼修改會比較好?

請問WEKA要如何分析問卷效度效度還有問卷如果有複選題的部分要如何編碼目前看文章學會使用決策數分...

您好，如果對文本分類有問題，建議到對應的文章下詢問： 1. 可以使用NaiveBayesMu...

老師您好因為最近想分析關於旅遊評論的資料看了您介紹了幾種分類器之後有問題想請教一下像是這...