tag:blogger.com,1999:blog-16607461.post2586159776976031342..comments2024-03-28T23:00:58.358+08:00Comments on 布丁布丁吃什麼?: 聚焦於你感興趣的關聯規則:Weka的HotSpot演算法 / Association Rule Mining with Specific Right-Hand-Side: HotSpot Algorithm in Weka布丁布丁吃布丁http://www.blogger.com/profile/13614721642960940190noreply@blogger.comBlogger27125tag:blogger.com,1999:blog-16607461.post-34599474564411542982023-06-26T22:55:13.758+08:002023-06-26T22:55:13.758+08:00有讀者詢問conf、lift、lev、conv四個評估指標的計算方式。
https://docs....有讀者詢問conf、lift、lev、conv四個評估指標的計算方式。<br /><br />https://docs.google.com/presentation/d/1_TI_a13WhFUG_GglneVXIdYeTJAf3aq9hryPY5TeqFI/edit#slide=id.ge2b38f7437_8_720<br />關於conf、lift、lev、conv四個評估指標,我在「2. 看穿因果:熱點分析 - 2021」投影片裡面有介紹過。<br />這四種指標的基本都是混淆矩陣中LHS跟RHS的機率。<br /><br />LHS是指前提規則,例如「所屬系所=台文所」。LHS的機率是在資料集中,符合該LHS的比例。<br />RHS是指後果規則,例如「是否有逾期記錄=是」。RHS的機率是在資料集中,符合該RHS的比例。<br /><br />https://blogger.googleusercontent.com/img/a/AVvXsEhZILFyJ9OlSbluLnLG54JIkWCuhLbITvT3Hw7jwO0QvK7VYGPYrFSmaA1cJt0YW39FfT1g410FpQD40XmM6op4KuvxhNU-ccVdfl40eYjCRgCMtSfq0AJ3WUpQQbKFNbLFAUDMoMW52_8mTQo9B15MQm-2qzQizPXMy0WCY4D1ua_kT6vmw42aog<br />我們來計算lift看看。<br /><br />https://blog.pulipuli.info/p/2021-nccu-lib.html<br />資料集來自「2021 資料探勘技術於 圖書館讀者資料分析與應用」的例子。<br />舉例來說,P(LHS)「所屬系所=台文所」的機率是(60/9479),P(RHS)「是否有逾期的記錄=是」的機率是(2219/9479)。<br />而這之中同時滿足前提與後果規則的比率P(LHS⋀RHS)的機率是(24/9479)<br />則lift則是(24/9479)/((60/9479)*(2219/9479))=1.71<br />結果跟Weka計算的一致。<br /><br />建議讀者可以自行算算看,應該就可以確認怎麼算了。<br /><br /><br />布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-18654799439319269792022-11-20T21:13:35.152+08:002022-11-20T21:13:35.152+08:00作者已經移除這則留言。kaiakai00https://www.blogger.com/profile/11892149084689102943noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-73842458893328811442021-01-18T19:29:31.107+08:002021-01-18T19:29:31.107+08:00To Fred,
你是說Weka的擴充套件multisearch-weka-package嗎?
h...To Fred,<br /><br />你是說Weka的擴充套件multisearch-weka-package嗎?<br />https://github.com/fracpete/multisearch-weka-package<br /><br />https://lh3.googleusercontent.com/-ohREwZQc0mQ/YAVvtXR_DDI/AAAAAAAE45Q/g9RIj5NdsuAaoqnIP6mqUr1r-MC416j5gCLcBGAsYHQ/2021-01-15_053310.png<br /><br />這個套件需要額外安裝,從Package Manager找到multisearch來安裝<br />使用時請根據它的Capabilities來選擇適合的資料:<br /><br />````<br />CAPABILITIES<br />Class -- Date class, Numeric class<br /><br />Attributes -- Binary attributes, Date attributes, Empty nominal attributes, Missing values, Nominal attributes, Numeric attributes, Unary attributes<br /><br />Interfaces -- Randomizable<br /><br />Additional<br />Minimum number of instances: 1<br />````<br /><br />它的Class只能適用於日期跟連續數字<br />所以我用cpu.arff來作為輸入資料<br />https://github.com/tertiarycourses/Weka/blob/master/Weka%20datasets/cpu.arff<br /><br />結果順利跑出來<br />MAE 39.657<br />MESE 70.0969<br /><br />對比一下其他的演算法:<br />LinearRegression<br />Mean absolute error 41.0886<br />Root mean squared error 69.556 <br /><br />MultilayerPerceptron<br />Mean absolute error 41.5204<br />Root mean squared error 65.286 <br /><br />SMOreg<br />Mean absolute error 34.8638<br />Root mean squared error 78.5746<br /><br />好像沒有特別令人驚豔的地方<br />為什麼會突然想用multisearch classifier呢?布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-81346766244264161402021-01-15T17:26:52.016+08:002021-01-15T17:26:52.016+08:00請問您會使用multisearch classifier 嗎?目前好像都找不太到在explorer介...請問您會使用multisearch classifier 嗎?目前好像都找不太到在explorer介面使用的相關資料Fredhttps://www.blogger.com/profile/14175625485217090654noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-79477842236022329472020-12-29T13:43:49.827+08:002020-12-29T13:43:49.827+08:00您好,
因為Excel開啟CSV時接受Big5編碼,它不能接受比較通用的UTF-8編碼
請捨棄使用...您好,<br /><br />因為Excel開啟CSV時接受Big5編碼,它不能接受比較通用的UTF-8編碼<br />請捨棄使用Excel,改使用LibreOffice Calc<br />https://blog.pulipuli.info/2016/04/libreoffice-portable-libreoffice.html<br />布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-1800759104666586052020-12-28T15:12:33.056+08:002020-12-28T15:12:33.056+08:00您好,Weka裡的Hotspot是可以開啟的,但檢視HotSpot Caller裡Inputy資料夾...您好,Weka裡的Hotspot是可以開啟的,但檢視HotSpot Caller裡Inputy資料夾中的示範excel會是亂碼Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-75636961794617499072020-12-28T03:37:49.342+08:002020-12-28T03:37:49.342+08:00您好,
請先直接使用HotSpot分析看看
https://lh3.googleuserconte...您好,<br /><br />請先直接使用HotSpot分析看看<br />https://lh3.googleusercontent.com/-zQU0Ab0Z0oY/X-jiVpxgPbI/AAAAAAAE3mQ/EWu8tvGBWno9nIxPAMzzukGUB7sZfMTfACLcBGAsYHQ/2020-12-28_033601.png<br /><br />執行結果很正常布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-57293083457038592322020-12-28T02:06:56.427+08:002020-12-28T02:06:56.427+08:00您好,不好意思,剛剛下載到輸入資料的過程都很順利,唯獨結果的部分跑不出來,頁面只有欄位但沒有任何數值...您好,不好意思,剛剛下載到輸入資料的過程都很順利,唯獨結果的部分跑不出來,頁面只有欄位但沒有任何數值等等出現,就連壓縮包裡的示範檔案的結果也是。想請問您是否有遇過此狀況呢?謝謝您Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-80130604980562187692020-05-13T15:02:37.314+08:002020-05-13T15:02:37.314+08:00To new,
不客氣。To new,<br /><br />不客氣。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-43662456346751796012020-05-12T23:44:50.542+08:002020-05-12T23:44:50.542+08:00收到了,非常感謝收到了,非常感謝newnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-18464219683211485252020-05-12T01:07:21.890+08:002020-05-12T01:07:21.890+08:00To new,
關於Apriori的使用,我找到了YouTube上Krishma Punjabi的...To new,<br /><br />關於Apriori的使用,我找到了YouTube上Krishma Punjabi的教學影片<br />https://www.youtube.com/watch?v=YxqIdh5Lzq0<br /><br />她用的資料是The contact lenses database<br />https://archive.ics.uci.edu/ml/datasets/Lenses<br /><br />我把資料轉換成試算表格式,你可以看看<br />https://docs.google.com/spreadsheets/d/1kdOc_rWn6nzUSKPFBr0n-TDqK8BB8AdgAvwWt2o-5Ss/edit?usp=sharing<br /><br />裡面只能是nominal的類別類型而已<br />不能使用數值類型numeric布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-7070171054116984992020-05-11T02:24:37.327+08:002020-05-11T02:24:37.327+08:00作者已經移除這則留言。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-71760730109201938262020-05-10T16:58:57.252+08:002020-05-10T16:58:57.252+08:00借串詢問
已經使用NumericToNominal這個程序,但還是不能使用Apriori
還可能是甚...借串詢問<br />已經使用NumericToNominal這個程序,但還是不能使用Apriori<br />還可能是甚麼問題嗎?newnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-62559894375014990862020-04-06T18:13:13.869+08:002020-04-06T18:13:13.869+08:00To eason,
不客氣,能幫上忙就好。To eason,<br /><br />不客氣,能幫上忙就好。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-16830633800634486982020-04-06T15:37:00.335+08:002020-04-06T15:37:00.335+08:00謝謝你,簡單易懂謝謝你,簡單易懂easonhttps://www.blogger.com/profile/08556837636761259355noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-20627166182009324712019-08-23T16:34:03.971+08:002019-08-23T16:34:03.971+08:00To linlin,
不客氣To linlin,<br /><br />不客氣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-8253848169173203442019-08-20T15:37:52.030+08:002019-08-20T15:37:52.030+08:00謝謝您~非常感謝!你的文章都寫得很仔細也很容易了解....非常受用!!謝謝您~非常感謝!你的文章都寫得很仔細也很容易了解....非常受用!!linlinhttps://www.blogger.com/profile/14413291659122497826noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-68208641870908857792019-08-16T17:37:23.950+08:002019-08-16T17:37:23.950+08:00To linlin,
這樣很難說,我建議你用Weka的Explorer直接分析,不要用我另外寫的W...To linlin,<br /><br />這樣很難說,我建議你用Weka的Explorer直接分析,不要用我另外寫的Weka HotSpot Caller,畢竟我額外寫的程式可能會有其他問題。<br /><br />----------------<br />1. 關於能不能執行HotSpot的問題<br /><br />我試了一個大型資料集<br />https://www.cs.ubc.ca/labs/beta/Projects/autoweka/datasets/<br />gisette.zip裡面的train.arff,檔案大小52.9MB,屬性數量5001個<br /><br />使用HotSpot可以執行,耗時不到30秒<br />http://2.bp.blogspot.com/-5s6M64yxGKw/XVZ5Mw4K7KI/AAAAAAAEWwE/LWc5HzEgCxowdyJUQFHF8agEQsPwnTu8wCK4BGAYYCw/s1600/2019-08-16_172714.png<br /><br />HotSpot執行參數是預設值<br />weka.associations.HotSpot -c last -V first -S 0.33 -M 2 -length -1 -I 0.01 -R<br />我的電腦是Intel i7-3770,RAM 16GB<br /><br />你先試試看能不能分析這個檔案<br /><br />-----------<br />2. 關於類別型屬性被編碼成數值的問題<br /><br />可以在Preprcoess裡面用NumericToNominal,將數值型屬性轉換成類別型<br />Filter: <br />weka.filters.unsupervised.attribute.NumericToNominal<br /><br />如果是以A, B, C之類的編碼,Weka一開始就會把它當作類別型屬性<br /><br />但這件事情跟能不能執行HotSpot演算法應該關係不大<br />布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-42231410072263266002019-08-16T17:35:28.111+08:002019-08-16T17:35:28.111+08:00作者已經移除這則留言。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-13452530319902607982019-08-16T16:03:09.180+08:002019-08-16T16:03:09.180+08:00您好,想請教兩個問題
1.除了目標屬性之外,其它屬性是否不能太多(我的data總共有97項),因我開...您好,想請教兩個問題<br />1.除了目標屬性之外,其它屬性是否不能太多(我的data總共有97項),因我開始執行weka_hotspot.exe時出現error<br />2.我的資料除了有數值類型大部份以類別為主,但都已編碼為"0"或"1",是否是出現error的原因之一呢?<br /><br /><br />linlinhttps://www.blogger.com/profile/14413291659122497826noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-85506188271163756972018-12-14T23:12:19.623+08:002018-12-14T23:12:19.623+08:00嗯對,與其說是Weka的Apriori不能用。
不如說Weka的Apriori所需要的資料格式跟結果...嗯對,與其說是Weka的Apriori不能用。<br />不如說Weka的Apriori所需要的資料格式跟結果,很多人都誤解了。<br />有興趣的話請去看「王者歸來 WEKA機器學習與大數據聖經」裡面的教學。<br /><br />不過,關聯式規則本身就很難用。<br />目前看到的例子中,只有市場購物車跟網頁操作行為順序這種要在超級隨機的狀態下找到值得注意的關聯,才會使用關聯式規則。<br />不然大多情況下用關聯式規則都沒什麼意義,最多情況是你也不知道你自己在分析什麼。<br /><br />雖然大家說資料探勘是由「分類」、「分群」、「關聯式規則」所組成。<br />「關聯式規則」的相關技術跟研究也非常多,但一般人其實是很難用它的。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-14031306743371666732018-12-14T22:53:46.635+08:002018-12-14T22:53:46.635+08:00本來是想用WEKA跑Aprori(有在課堂上介紹過的其中一種演算法)找關聯規則,結果發現竟然不能使用...本來是想用WEKA跑Aprori(有在課堂上介紹過的其中一種演算法)找關聯規則,結果發現竟然不能使用RRR<br />所以就上來找方法了~Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-36289220949596866002018-12-14T00:52:48.234+08:002018-12-14T00:52:48.234+08:00To 鼎巳,
喔喔,可以用就好。
喔對了,雖然我不太知道你們資料探勘在修什麼,不過HotSpot嚴...To 鼎巳,<br /><br />喔喔,可以用就好。<br />喔對了,雖然我不太知道你們資料探勘在修什麼,不過HotSpot嚴格來說不太算是常見的關聯式規則探勘,兩者不太一樣喔。<br />目前學術界用HotSpot這種子群組探勘的人還蠻稀少的,我就很好奇你為何會來看我這篇?布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-89298413634888705902018-12-13T23:32:13.080+08:002018-12-13T23:32:13.080+08:00後來再嘗試一下就能跑出結果了~
我是跨修資料探勘這門課的新手,對非本科系的人來說你寫的教學真的很讓人...後來再嘗試一下就能跑出結果了~<br />我是跨修資料探勘這門課的新手,對非本科系的人來說你寫的教學真的很讓人感動QQ,詳細易懂,救了期末報告~鼎巳https://www.blogger.com/profile/15640267877710381730noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-49701315774112020942018-12-13T21:23:52.302+08:002018-12-13T21:23:52.302+08:00To 鼎巳,
我現在不太使用Weka的HotSpot,傾向於改用子群組探勘或特殊模式探勘。
關於特...To 鼎巳,<br /><br />我現在不太使用Weka的HotSpot,傾向於改用子群組探勘或特殊模式探勘。<br />關於特殊模式探勘,請用Cortana:<br />http://blog.pulipuli.info/2018/01/cortana-discovery-knowledge-in-your.html布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.com