tag:blogger.com,1999:blog-16607461.post2781248346887844937..comments2024-03-29T10:21:47.284+08:00Comments on 布丁布丁吃什麼?: Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial布丁布丁吃布丁http://www.blogger.com/profile/13614721642960940190noreply@blogger.comBlogger42125tag:blogger.com,1999:blog-16607461.post-66597463058748790332024-03-13T22:56:58.983+08:002024-03-13T22:56:58.983+08:00To 阿丹,
這比較像是演算法問題帶來的原罪。
Weka畢竟是教學跟研究的產物,使用上還是有上限。...To 阿丹,<br /><br />這比較像是演算法問題帶來的原罪。<br />Weka畢竟是教學跟研究的產物,使用上還是有上限。<br /><br />當資料量一大、要在正式的環境執行時,我們還是選擇一些主流的框架來執行吧。<br /><br />現在比較多人知道的大概是用Python的Pandas套件來做資料的串流分析,避免一口氣載入太多資料量,讓記憶體爆炸。<br /><br />以前一段時間流行的是 Apache Spark <br />https://spark.apache.org/<br />分群演算法說明:https://spark.apache.org/docs/latest/ml-clustering.html<br />但Apache Spark也是用程式碼在操作就是了。<br /><br />https://stackoverflow.com/questions/60411391/can-i-process-100-gb-of-data-using-apache-spark-on-my-local-machine<br />至於30萬筆的CSV到底算不算是大數據呢?<br />這種用程式處理的方式,100GB的檔案都不在話下了。<br /><br />----<br /><br />最後我只能感嘆的是,<br />教學是教學,實務工作還是實務工作。<br /><br />教學的目的是一步一步讓大家瞭解整個過程。<br />實務工作就會包裝、簡化、提升效率。<br />兩者還是不太一樣的啊。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-15783853376637126872024-03-12T14:24:12.198+08:002024-03-12T14:24:12.198+08:00您好,最近因論文內容需要使用WEKA,CSV資料數大概30萬筆。
目前遇到一個狀況是因資料量過大跑w...您好,最近因論文內容需要使用WEKA,CSV資料數大概30萬筆。<br />目前遇到一個狀況是因資料量過大跑weka的J48決策樹和K-means時會因記憶體不足而跳掉,有試過去調整weka內的最大記憶體也調成32g了,但在跑資料時還是會跳出記憶體不夠的警示,請問該如何解決?<br />阿丹https://www.blogger.com/profile/02923269609778764716noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-74431045520958667432023-05-22T23:07:31.374+08:002023-05-22T23:07:31.374+08:00您好,
看起來是課堂作業呢。
請自己加油吧!您好,<br /><br />看起來是課堂作業呢。<br />請自己加油吧!布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-16519573195925119102023-05-22T17:21:47.977+08:002023-05-22T17:21:47.977+08:00您好,請問以下題該怎麽做?
Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料,從...您好,請問以下題該怎麽做?<br />Weka提供的範例資料labor.arff是加拿大工業的勞工職缺資料,從至少500多人的資料中整理各種職缺的屬性資訊,以及這份職缺最後被員工評比為好 (class: good) 或壞 (class: bad)。試分析這份資料:<br />1. 以你所知的各種分類方法 (e.g. logistic regression, decision tree, kNN SVM, RandomForest, Ensemble methods, etc.) 與資料切分技巧 (e.g. training/test, cross-validation, etc.) 建構職缺好壞的各種分類模型。解釋這些分類模型結果,並利用各種指標 (e.g. ROC, Recall, Precision, F1, etc.) 評估這些分類模型並討論其效能。<br />2. 社會新鮮人欲求得一份好職缺,根據分類模型,你會建議他要多注意哪些職缺屬性?<br />Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-52244825772853847182021-09-27T17:28:52.735+08:002021-09-27T17:28:52.735+08:00由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結,在此做個記錄。由於Google Drive更改連結的形式。本篇用到舊連結的檔案已經更新了分享連結,在此做個記錄。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-45522002478754962522021-09-22T22:10:29.537+08:002021-09-22T22:10:29.537+08:00To Sarah,
正確率的高低要跟您的資料集做比較
您的Class種類多達5類,那正確率通常不...To Sarah,<br /><br />正確率的高低要跟您的資料集做比較<br /><br />您的Class種類多達5類,那正確率通常不高<br />一般的情況下基準是20% 。五種選項,全部只猜A,那最低的正確率就是20%。<br /><br />仔細一點你可以考慮數量最多的類別。<br />假設Class=A佔了全部資料集的60%,是最多的類別。<br />那你的比較基準就是60%。<br />也就是不看任何feature,矇眼猜A的情況下,正確率高達6成。<br /><br />請以這個基準來看看你的準確率是否合理。<br /><br />要更進一步的話,還可以用卡方檢定來評估你的模型正確率是否有顯著優於比較基準。<br /><br />總之,我想講的重點是:你要追求的不是100%正確率,而是跟比較基準相比更好。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-22818189690548268032021-09-14T14:03:27.512+08:002021-09-14T14:03:27.512+08:00謝謝老師!!
不好意思想再請問一下,如果準確率低(49.56%),但是 RMSE也低(0.3631)...謝謝老師!!<br />不好意思想再請問一下,如果準確率低(49.56%),但是 RMSE也低(0.3631),這樣此模型算是好的(能代表解釋資料)嗎?<br /><br />Correctly Classified Instances 676 49.5601 %<br />Incorrectly Classified Instances 688 50.4399 %<br />Kappa statistic 0.2478<br />Mean absolute error 0.2444<br />Root mean squared error 0.3631<br />Relative absolute error 86.8056 %<br />Root relative squared error 96.807 %<br />Total Number of Instances 1364 <br /><br />=== Detailed Accuracy By Class ===<br /><br /> TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class<br /> 0.515 0.241 0.465 0.515 0.489 0.266 0.693 0.455 A<br /> 0.679 0.372 0.570 0.679 0.620 0.303 0.690 0.579 G<br /> 0.196 0.025 0.415 0.196 0.267 0.244 0.656 0.201 B<br /> 0.000 0.004 0.000 0.000 0.000 -0.013 0.702 0.090 BB<br /> 0.270 0.109 0.330 0.270 0.297 0.175 0.679 0.272 GG<br />Sarahhttps://www.blogger.com/profile/17832164844230160063noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-71791225378830982572021-09-05T15:59:57.162+08:002021-09-05T15:59:57.162+08:00To Sarah,
# 如何提高正確率?
1. 更多的資料:更多的案例數量,更多的特徵
2. 更...To Sarah,<br /><br /># 如何提高正確率?<br /><br />1. 更多的資料:更多的案例數量,更多的特徵<br />2. 更換演算法<br />3. 使用特徵轉換演算法:可以搭配Attribute Selection試試看<br /><br />不一定是特徵的問題。<br />但從學術研究的角度來說,最好蒐集的特徵跟要預測的目標之間有理論的支持。<br />舉個例子來說,我們可能會認爲國文成績不錯的人,學習英文的時候表現也比較好。<br />但是如果比較國小學生在腳掌大小跟英文成績之間的關係,也可以發現腳掌越大的學生,英文成績居然也會更好。<br /><br />至於爲何如此,就留給你去找答案了。<br /><br /># 能夠找出關鍵因素嗎?<br /><br />很多人想要做這件事情,但大家對於「關鍵因素」的定義都過於模糊。<br /><br />就我目前的經驗總結下來,大致上可以分成兩種:<br />1. 將「關鍵因素」視爲單一屬性:最後結果會是「能夠區別結果的屬性中,最相關的屬性由高到低排序爲:屬性B、屬性A、屬性C」, 此時請使用Attribute Selection。<br />2. 將「關鍵因素」視爲屬性在一定範圍內的情況:最後結果會是「當屬性B小於平均值時,最可能導致結果A」,此時請使用Subgroup Discovery。https://blog.pulipuli.info/2018/01/cortana-discovery-knowledge-in-your.html<br /><br />請根據自己的需求來選擇對應的分析方法。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-30468039570870605162021-08-18T15:47:51.794+08:002021-08-18T15:47:51.794+08:00老師您好,謝謝您的教學文章!幫助很多!!
想請問,如果決策樹準確率很低(<50%),是不是代表...老師您好,謝謝您的教學文章!幫助很多!!<br />想請問,如果決策樹準確率很低(<50%),是不是代表目前的 attribute都無關緊要QQ,除了再找其他 attribute,還可以怎麼做?換其他演算法可以有不同結果嗎?(找出關鍵因素)Sarahhttps://www.blogger.com/profile/17832164844230160063noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-49365869729402776022021-01-11T20:21:05.213+08:002021-01-11T20:21:05.213+08:00您好,
讓我們來看看overfitting的定義。
https://www.wikiwand.co...您好,<br /><br />讓我們來看看overfitting的定義。<br />https://www.wikiwand.com/zh-tw/%E9%81%8E%E9%81%A9<br /><br />overfitting是一個相對的概念。主要是說,現在訓練好的模型若發生了overfitting,那該模型可能就只能適用於既有的訓練資料(training data)。而在處理新的未知資料時,模型就無法正確預測。<br />換句話說,光看自己的訓練資料,我們無法得知這樣的模型是否有overfitting的情況發生,需要搭配訓練資料之外的其他資料,例如測試資料(test data)。<br /><br />你列出了訓練資料跟測試資料的正確率,但若要判斷是否發生overfitting,我們還需要考慮到不正確的程度。<br /><br />如果是類別資料的話,常用的指標是召回率或F1 measure<br />https://www.wikiwand.com/zh/F-score<br /><br />如果是連續數值的資料,常用的指標就是RMSE (root-mean-square error),誤差平方根。<br />https://www.wikiwand.com/zh-tw/%E5%9D%87%E6%96%B9%E6%A0%B9%E8%AF%AF%E5%B7%AE<br /><br />因為你用了正確率這個詞,可以知道你的class使用的是類別類型資料<br />F1 measure已經包含了正確率的概念,所以我們直接比較訓練資料跟測試資料的F1 measure就好了<br /><br />如果測試資料的F1 measure小於訓練資料的F1 measure,表示有overfitting的現象發生<br />但到底差異多少才算是overfitting,這個並沒有固定的標準。<br /><br />----<br /><br />比起在意有沒有overfitting的現象,我們更注重的是如何降低發生overfitting的機率<br />常見的做法是在訓練模型時使用dropout<br />https://www.wikiwand.com/zh-tw/Dropout<br /><br />或是在驗證模型時採用cross-validation<br />https://www.wikiwand.com/zh-tw/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89<br /><br />通常cross-validation產生的評估指標會比較低,看起來好像不太準<br />但這卻比較能夠反映真實現況,讓使用模型的人對於模型的預測結果不要保持太高的信心<br /><br />----<br /><br />很多機器學習的教學都只教訓練資料建模跟測試資料驗證<br />這樣學起來很簡單,但並不實用,我的教學都不會這樣教<br /><br />有興趣的話可以看我之前的課程內容<br />http://blog.pulipuli.info/2017/10/applications-of-big-data-and-statistics.html#postcataapplications-of-big-data-and-statistics.html0_anchor6布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-57108982354277375662021-01-11T13:37:47.288+08:002021-01-11T13:37:47.288+08:00老師您好 請問用 j48 建模 訓練資料 正確率99.2278% 測試資料正確率96.0265 % ...老師您好 請問用 j48 建模 訓練資料 正確率99.2278% 測試資料正確率96.0265 % 這樣是否有overfitting 要如何判斷 謝謝Anonymoushttps://www.blogger.com/profile/01901667557625594321noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-45275628226603057452020-05-13T15:09:50.332+08:002020-05-13T15:09:50.332+08:00To Unknown,
看你的目的。
如果你的目的是要正確預測,那就不用糾結決策樹的結構,Wek...To Unknown,<br /><br />看你的目的。<br /><br />如果你的目的是要正確預測,那就不用糾結決策樹的結構,Weka電腦自己看得懂,就會幫你去預測。<br /><br />如果你的目的是要解釋屬性和目標屬性之間的關係,請選擇其他分析方法<br /><br />子群組探勘<br />http://blog.pulipuli.info/2018/01/cortana-discovery-knowledge-in-your.html<br /><br />多元迴歸<br />http://blog.pulipuli.info/2017/06/spss-interpreting-multiple-regression.html布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-48308607671719832092020-05-13T09:34:47.450+08:002020-05-13T09:34:47.450+08:00您好,
請問如果J48決策樹所呈現的樹,由於樹的枝葉太多,無法從圖看出規則,怎麼修改會比較好?您好,<br />請問如果J48決策樹所呈現的樹,由於樹的枝葉太多,無法從圖看出規則,怎麼修改會比較好?Anonymoushttps://www.blogger.com/profile/05341403688101248552noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-64069924079006375312020-04-30T18:59:44.507+08:002020-04-30T18:59:44.507+08:00你好,
1.
問卷的效度分析請使用R或SPSS。
2.
如果問卷有複選題,請拆開成多個屬性,然後...你好,<br /><br />1.<br />問卷的效度分析請使用R或SPSS。<br /><br />2.<br />如果問卷有複選題,請拆開成多個屬性,然後個別給true / false的值<br />舉例來說:<br />您喜歡吃的肉類: [ ] 牛肉 / [v] 豬肉 / [v] / 羊肉<br /><br />那資料就會整理成<br /><br />您喜歡吃的肉類_牛肉,您喜歡吃的肉類_豬肉,您喜歡吃的肉類_羊肉<br />false,true,true<br /><br />就這樣整理<br /><br />3.<br />不客氣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-46345858643568046922020-04-29T16:12:22.166+08:002020-04-29T16:12:22.166+08:00請問WEKA要如何分析問卷效度效度
還有問卷如果有複選題的部分要如何編碼
目前看文章學會使用決策數分...請問WEKA要如何分析問卷效度效度<br />還有問卷如果有複選題的部分要如何編碼<br />目前看文章學會使用決策數分析了非常感謝Anonymoushttps://www.blogger.com/profile/08526439735243054580noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-61336390121535214022020-04-10T20:29:26.292+08:002020-04-10T20:29:26.292+08:00您好,
如果對文本分類有問題,建議到對應的文章下詢問:
1.
可以使用NaiveBayesMu...您好,<br /><br />如果對文本分類有問題,建議到對應的文章下詢問:<br /><br />1. <br />可以使用NaiveBayesMultinomialText,但它要求資料屬性是String,然後會自動做些文字前處理<br /><br />關於資料類型NominalToString的方法,請看「發掘文件中的主題:Weka分群應用於文本探勘」這篇中「3-3. 類別轉換成字串」的說明<br />http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html#postcataweka-discover-topic-of-text-collection.html0_anchor13<br /><br />2. <br /><br />「因為一段話裡有多種特徵,所以我想分類成已知的5個class,分別為客房乾淨、交通便利、周遭環境、飯店服務,其他等」<br />這有兩種情況:<br /><br />2a. <br />一個class裡面有五種不同的結果「客房乾淨」、「交通便利」、「周遭環境」、「飯店服務」、「其他」<br />那就直接操作就可以了<br /><br />可以看這篇「非結構化資料分析:文本分類」的說明<br />http://blog.pulipuli.info/2017/10/unstructured-text-analytics-text.html<br /><br />2b.<br />想要個別判斷是不是具有「客房乾淨」、「交通便利」、「周遭環境」、「飯店服務」、「其他」這些結果<br />那這個就是多目標分類Multi-label/Multi-target的問題<br />http://www.jmlr.org/papers/v17/12-164.html<br /><br />比較簡單的做法是做成五個不同的資料集,建立五個獨立判斷的分類器<br /><br />舉例來說:<br /><br />客房乾淨分類器<br />屬性:評論、是否客房乾淨(True/False)<br /><br />交通便利分類器<br />屬性:評論、是否交通便利(True/False)<br /><br />以此類推<br /><br />3. <br /><br />如果您想要找尋其他可能的分類,那就需要用主題分析的方法<br /><br />除了找出詞頻最高的詞彙之外,比較簡單的方式可以參考「發掘文件中的主題:Weka分群應用於文本探勘」這篇<br />http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html#postcataweka-discover-topic-of-text-collection.html0_anchor13<br /><br />因為這是探索式的分析,結果不會直接告訴您「需要加入:「是否隔音佳」目標屬性」<br />但這是讓您找尋潛在主題的一個簡單方法<br /><br />大概就這樣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-13008337655628627562020-04-10T00:19:23.686+08:002020-04-10T00:19:23.686+08:00老師 您好
因為最近想分析關於旅遊評論的資料
看了您介紹了幾種分類器之後
有問題想請教一下
像是這...老師 您好<br />因為最近想分析關於旅遊評論的資料<br />看了您介紹了幾種分類器之後<br />有問題想請教一下<br /><br />像是這段評論,「房間乾淨很新,服務很好,步行台北車站只需10分鐘,周圍遍布餐廳,購物很便宜」。<br />因為一段話裡有多種特徵,所以我想分類成已知的5個class,分別為客房乾淨、交通便利、周遭環境、飯店服務,其他等<br />共有10000筆資料想讓weka去判斷這些評論分別會是在哪種class裡<br /><br />請問NaiveBayesMultinomialText這個分類器適用嗎?或是有推薦的嗎?<br /><br />另外我有看到您的實驗範例關於籃球和地球的2種類別判定,但一句話只有2種判別,我想訓練成一句話要顯示2種以上的判別,請問這種的weka做得到嗎?<br />這樣csv檔中的class格式要怎麼做,可以麻煩您教我一下嗎?謝謝您Anonymoushttps://www.blogger.com/profile/14893686479642288416noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-32423770559051146442020-04-08T22:53:27.646+08:002020-04-08T22:53:27.646+08:00那真是太好了,加油!那真是太好了,加油!布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-55702191027768140222020-04-08T22:07:53.778+08:002020-04-08T22:07:53.778+08:00成功了,謝謝您!成功了,謝謝您!Anonymoushttps://www.blogger.com/profile/04144398622365710792noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-90518239786235320192020-04-08T21:01:32.060+08:002020-04-08T21:01:32.060+08:00將CSV轉換成ARFF的做法:
1. 開啟CSV檔案:從Weka的Explorer左上角「Open...將CSV轉換成ARFF的做法:<br /><br />1. 開啟CSV檔案:從Weka的Explorer左上角「Open file...」<br />http://3.bp.blogspot.com/-U5ZR-dVNmWs/Xo3DizEAWNI/AAAAAAAEjl8/VOiLuZ66MlQuqX0vydj71rtG99FXBQh5ACK4BGAYYCw/s1600/2020-04-08_202611.png<br /><br />記得Files of Type要選擇CSV<br />http://2.bp.blogspot.com/-cujovm3JDjg/Xo3DiV1NkdI/AAAAAAAEjl0/4s__0yA_4ns1LTKaSQQGWFouV6SjHBXIACK4BGAYYCw/s1600/2020-04-08_202646.png<br /><br />2. 儲存檔案:按右上角的「Save...」儲存成ARFF格式即可<br />http://4.bp.blogspot.com/-ACQnPYRKEs0/Xo3DijLSUiI/AAAAAAAEjl4/uPoisTw4bZAXzMIL4dwT3swUTPuSsmlGQCK4BGAYYCw/s1600/2020-04-08_202715.png<br /><br />--------------<br /><br />將Excel轉換成ARFF的做法:<br /><br />1. 安裝套件WekaExcel<br /><br />安裝套件的教學看這篇:「Weka下載與套件安裝教學」<br />http://blog.pulipuli.info/2017/06/weka-how-to-download-weka-and-install.html#postcataweka-how-to-download-weka-and-install.html0_anchor2<br /><br />2. 開啟檔案:記得Files of Type要選Excel Spreadsheets<br /><br />3. 儲存檔案:存成ARFF格式即可<br /><br />--------------<br /><br />如果屬性(attributes)數量過多,ARFF會採用另一種簡約格式<br />長得會跟CSV差很多<br /><br />這可能是使用ARFF檔案的時候需要注意的地方布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-68767208582265837552020-04-08T00:17:01.062+08:002020-04-08T00:17:01.062+08:00請問要如何將CSV或Excel格式轉換成ARFF,謝謝!請問要如何將CSV或Excel格式轉換成ARFF,謝謝!Anonymoushttps://www.blogger.com/profile/04144398622365710792noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-51741084161297777672018-10-24T23:06:54.833+08:002018-10-24T23:06:54.833+08:00Thank you for your comment.Thank you for your comment.布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-89812230736400471172018-10-24T17:59:43.101+08:002018-10-24T17:59:43.101+08:00In each leaf of the tree, you have the number of i...In each leaf of the tree, you have the number of instances that fall into the leaf, and the number of incorrectly classified instances of this leaf, both from the training set. (http://weka.8497.n7.nabble.com/SOLVED-j48-tree-display-number-of-instances-and-errors-in-leaves-for-test-set-instead-of-training-set-td37617.html)Anonymoushttps://www.blogger.com/profile/01280180887806154466noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-62900261322004333822018-07-17T23:00:25.557+08:002018-07-17T23:00:25.557+08:00如果要提升J48正確率的話,有幾個方法可供參考:
1. 調整J48演算法的參數
http://f...如果要提升J48正確率的話,有幾個方法可供參考:<br /><br />1. 調整J48演算法的參數<br /><br />http://facweb.cs.depaul.edu/mobasher/classes/ect584/weka/classify/figure22.gif<br />J48有一些參數可供調整,但遺憾的是,預設值通常是最好的結果,因此調整參數比較可能會讓正確率下降。<br /><br />2. 使用特徵選取 AttributeSelectedClassifier<br />https://weka.wikispaces.com/Performing+attribute+selection#Meta-classifier<br />meta裡面有個分類器叫做AttributeSelectedClassifier<br />這可以讓你在分類前先進行特徵選取處理,然後再來用J48進行分類<br /><br />關於特徵選取的知識請看這篇<br />https://machinelearningmastery.com/perform-feature-selection-machine-learning-data-weka/<br /><br />3. 更換演算法,不要用J48<br />Weka提供了多種演算法,不會選擇的話也可以用Auto-Weka。<br />http://blog.pulipuli.info/2017/04/auto-weka-automatic-model-selection-and.html<br /><br />當然,要自行用特徵選取、特徵建立等多種方法來建立類神經網路模型,手動實作深度學習,Weka也是可以做到,但這就不是滑鼠點個一下兩下就能了事的程度。<br />若要做到這個份上,個人建議改用Python上專門為了深度學習開發的函式庫來建立模型比較合適。<br /><br />------------------<br /><br />然後最後是一定要講的重要概念:「過擬合 overfitting」<br />https://www.wikiwand.com/zh-tw/%E9%81%8E%E9%81%A9<br /><br />準確率100%,但是資料跟特徵卻不多,通常大家不會認為你的模型很準,而是認為你的模型出現了過擬合的問題。<br />過擬合表示你的模型僅能適用於解釋你既有的資料,而未來可能需要判斷的未知資料,極有可能難以適用。<br /><br />當然,過擬合只是個抽象的標準。<br />隨著你要解決的問題、資料類型、預測目標的不同,理想上的正確率都不太一樣,並沒有統一的標準。<br />個人觀點來看,如果在20個以下的案例、用少數三十幾個特徵、來預測5種類別,那正確率有6成已經很不錯了。<br /><br />http://blog.pulipuli.info/2017/06/wekamnist-mnist-digits-classification.html<br />若是像手寫數字資料庫這樣,用6萬個訓練案例與1萬個測試案例,從784個特徵中預測10種類別,那因為數量與特徵都夠多,我們就會期望他能夠達到90%以上。<br /><br />----------------<br /><br />說到底,分類預測只是一個輔助工具<br />建立模型是可以幫助我們省下一些瑣碎的時間<br />但大多數情況下,我都不建議完全依賴預測的答案<br />僅供參考即可布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-4696883699232023812018-07-17T21:04:15.511+08:002018-07-17T21:04:15.511+08:00請問如果想提升J48決策樹的準確度(80%提升到100%)除了改投入的數據外,有沒有其他方法可以提升...請問如果想提升J48決策樹的準確度(80%提升到100%)除了改投入的數據外,有沒有其他方法可以提升Anonymousnoreply@blogger.com