tag:blogger.com,1999:blog-16607461.post8924917461991639685..comments2024-03-22T22:07:20.635+08:00Comments on 布丁布丁吃什麼?: 自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means布丁布丁吃布丁http://www.blogger.com/profile/13614721642960940190noreply@blogger.comBlogger18125tag:blogger.com,1999:blog-16607461.post-65049637833368228982018-06-16T16:05:07.742+08:002018-06-16T16:05:07.742+08:00不客氣不客氣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-1404866472931860222018-06-16T15:53:26.786+08:002018-06-16T15:53:26.786+08:00謝謝老師!!
謝謝老師!!<br />Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-43510655750864387762018-06-13T11:24:42.690+08:002018-06-13T11:24:42.690+08:00不客氣不客氣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-37002339983339418642018-06-13T10:06:00.476+08:002018-06-13T10:06:00.476+08:00好,多谢!好,多谢!Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-5885562663121509562018-06-12T20:06:45.506+08:002018-06-12T20:06:45.506+08:00https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4...https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png<br /><br />圖中只有restarts 9/10的後半部跟10/10的全部<br />你看到的 k:2 CH:875.49 是最後一次的結果<br />前面第二次有 k:2 CH:934.23,是最高值<br />所以最後只會挑最高值出來比較<br /><br />自己跑一遍看看吧? 布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-61167177875433722632018-06-12T17:53:57.114+08:002018-06-12T17:53:57.114+08:00可是在您这张图中 https://lh3.googleusercontent.com/-gTy43q...可是在您这张图中 https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png<br />restart 10 的最大CH值为: k2: CH: 875.49, 而在最后这行 max CH里并没有这个数字?Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-89348455216527698962018-06-12T16:01:56.556+08:002018-06-12T16:01:56.556+08:00因為K-means是亂數選擇起始群心,可能會有不確定性,所以CascadeSimpleKMeans採...因為K-means是亂數選擇起始群心,可能會有不確定性,所以CascadeSimpleKMeans採用了多次重複執行K-means、取得最高CH指標作為代表的做法<br /><br />請看CascadeSimpleKMeans的說明<br /><br />NAME<br />weka.clusterers.CascadeSimpleKMeans<br /><br />SYNOPSIS<br />Cascade simple k means, selects the best k according to calinski-harabasz criterion. For more information see:<br /><br />T. Calinski, J. Harabasz (1974). A dendrite method for cluster analysis.<br /><br />OPTIONS<br />seed -- The random number seed to be used.<br /><br />printDebug -- Print debugging information to the console<br /><br />initializeUsingKMeansPlusPlusMethod -- Initialize cluster centers using the probabilistic farthest first method of the k-means++ algorithm<br /><br />minNumClusters -- The minimum number of clusters to consider<br /><br />restarts -- The number of restarts to use<br /><br />debug -- If set to true, clusterer may output additional info to the console.<br /><br />manuallySelectNumClusters -- Manually select the number of clusters to use from the results generated<br /><br />doNotCheckCapabilities -- If set, clusterer capabilities are not checked before clusterer is built (Use with caution to reduce runtime).<br /><br />maxIterations -- Maximum number of iterations for k-means<br /><br />distanceFunction -- The distance function to use - only euclidean and manhattan are allowed<br /><br />maxNumClusters -- The maximum number of clusters to consider<br /><br /><br />CascadeSimpleKMeans可以設定restarts的次數,預設是10<br />https://lh3.googleusercontent.com/-IZfIeMDr5hM/Wx98liCoB-I/AAAAAAADwH4/aRLXf-cCZlwi-Em2JcuxZGPFREdZB-m_ACHMYCw/s0/2018-06-12_15-55-45.png<br /><br />Log中最後的max CH: [934.23 497.5 351.53 291.8 243.82 208.47 186.86 161.56 152.27]表示K=2 ~ K=10每一種分群方式restart 10次中最高CH指標<br />K=2 ~ K=10只有9種組合,並不會有10種<br /><br />布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-86393507154177249832018-06-12T15:28:21.797+08:002018-06-12T15:28:21.797+08:00您好,想请教下. 是就看最后一个 restart 吗? 也就是第10个.
这最后一行的 max C...您好,想请教下. 是就看最后一个 restart 吗? 也就是第10个.<br /><br />这最后一行的 max CH [......] 为什么和前面的CH最大值不一样,而且是并没有10个Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-82515202320068682352018-06-12T10:39:32.613+08:002018-06-12T10:39:32.613+08:00不客氣不客氣布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-12264379956343168992018-06-12T10:25:53.154+08:002018-06-12T10:25:53.154+08:00好的, 感谢!好的, 感谢!Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-49863835614472694312018-06-11T14:08:25.466+08:002018-06-11T14:08:25.466+08:00論文參考來源:
Caliński, T., & Harabasz, J. (1974). A...論文參考來源:<br />Caliński, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics, 3(1), 1-27. doi:10.1080/03610927408827101<br />公式出現在第10頁<br /><br />以下我是從別人的報告中取出整理過的公式:<br />CH(K)的公式<br />https://lh3.googleusercontent.com/-2tktJCRD6nw/Wv6-Va_3ZAI/AAAAAAADvFI/gX82TTSYgYMqZmodaz10_97KXjafuyJdACHMYCw/s0/chk.png<br /><br />trace B的公式<br />https://lh3.googleusercontent.com/-WKm5TuROVEw/Wv6-VFlrPRI/AAAAAAADvFA/xZGKsbYo74UALS-weYGTcF1-hFhJHPjmQCHMYCw/s0/traceB.png<br /><br />traceW的公式<br />https://lh3.googleusercontent.com/-XAOw9erDF7M/Wv6-VHBC13I/AAAAAAADvFE/FeyAu5Dz3TQMCOxiK2jZI-WfJ_-0RNhmgCHMYCw/s0/traceW.png布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-59683312994500828852018-06-11T14:03:21.928+08:002018-06-11T14:03:21.928+08:00要看到CK指標的話,請開啟Weka GUI Chooser > Program > Lo...要看到CK指標的話,請開啟Weka GUI Chooser > Program > LogWindow<br />https://lh3.googleusercontent.com/-w4jZmj4SGH4/Wx4P0avVnLI/AAAAAAADwCQ/NjU8gzcRj1Us4ShUCDRyUg2xsMMotipkACHMYCw/s0/2018-06-11_13-59-24.png<br /><br />然後使用CascadeSimpleKMeans<br />LogWindow就會出現計算結果<br />https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png<br />例如:<br />cascade> k:2 CH:875.49 W:3.48 (unweighted:1506) B:3045 (unweighted:3045) <br />cascade> k:3 CH:470.86 W:3.11 (unweighted:1345) B:1466 (unweighted:2932) <br />所以k=2的時候,CH指標最高,最後選擇k=2布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-15472846793315207212018-06-05T05:13:48.352+08:002018-06-05T05:13:48.352+08:00老師好
抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一...老師好<br />抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一樣是以Calinski-Harabasz(CH)指標為判別方法嗎?<br />另外就是想請教的是CH指標的公式,從您的教學簡報中了解是CH(K)=(trace B/(K-1))/(trace W/(N-K)) ,此公式的推導是否是從論文「 A dendrite method for cluster analysis 」而來呢,再麻煩老師您撥空回覆,謝謝!<br /> Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-64532116578121860642018-06-04T17:28:02.902+08:002018-06-04T17:28:02.902+08:00您好, 想请教下.
weka 的 Cascade K-Means 会在结果中给出 K=某个数时的最大...您好, 想请教下.<br />weka 的 Cascade K-Means 会在结果中给出 K=某个数时的最大 CH 指数, 比如 highest CH for k=3: ....<br /><br />但能看到所有 每个k 所对应的 CH指数吗?Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-61128990369510758092018-04-26T14:51:41.869+08:002018-04-26T14:51:41.869+08:00試試看,有問題再問吧!試試看,有問題再問吧!布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-91541327294738002102018-04-26T10:16:41.576+08:002018-04-26T10:16:41.576+08:00謝謝布丁老師的稱讚....開心(撒花)..^^
今天立馬再來試做一次,感謝老師解惑!
謝謝布丁老師的稱讚....開心(撒花)..^^<br />今天立馬再來試做一次,感謝老師解惑!<br /><br /><br /><br />Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-33695590480492372602018-04-25T19:58:58.770+08:002018-04-25T19:58:58.770+08:00您好,
您讀得很仔細,值得稱讚。
沒錯,其實在Preprocess裡面,我少講了一個步驟
在設定...您好,<br /><br />您讀得很仔細,值得稱讚。<br /><br />沒錯,其實在Preprocess裡面,我少講了一個步驟<br />在設定好AddCluster的Filter之後,還要在右下角將class設定為「No class」<br />https://lh3.googleusercontent.com/-20bGwcxOC4I/WuBs03XlpsI/AAAAAAADtxk/i8WTa_KidKUx-T5XexYjwliJlbFFxRC9ACHMYCw/s0/2018-04-25_19-55-57.png<br />這是因為在Preprocess中AddCluster的時候,除了設定的ignoredAttributeIndices之外,還會忽略被選為class的屬性(預設是最後一個屬性)<br />但是在Cluster中,則只會看Ignore attributes<br /><br />因此在Preprocess中還要多一個步驟,這才是正確答案。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-21217816666138303682018-04-25T05:12:19.356+08:002018-04-25T05:12:19.356+08:00布丁老師早安,又來打擾您了
有幾個小問題想跟您請教
問題一:目前在用Cascade K-means...布丁老師早安,又來打擾您了<br />有幾個小問題想跟您請教<br /><br />問題一:目前在用Cascade K-means進行分群時,發現同一筆資料因為操作順序的不同,所分出來的群數也會不同,不知道是那裡出了錯>"<<br />操作方法一(同布丁老師講述的方法進行)<br />1.開啟Weka,在Weka GUI Chooser中,選擇Explorer。<br />2.按下左上角的「Open file…」。現在Files of Type選擇「CSV data files (*.csv)」,這時候才能顯示CSV格式的檔案,然後按下右下角的「Open」。<br />3.按下Filter底下的Choose。<br />4.選擇「weka.filters.unsupervised.attribute.AddCluster」<br />5.進入AddCluster的設定。在clusterer的右邊按下「Choose」,選擇「weka.clusterers.CascadeSimpleKMeans」。<br />6.在ignoredAttributeIndices裡面輸入1,表示「編號1的特徵(也就是工作編號)不納入分群中」<br />7.按下clusterer旁邊的粗體字「CascadeSimpleKMeans」,開啟進階設定。<br />8.設定「maxNumClusters」(10)跟「minNumClusters」(2)<br />9.按下「OK」退出<br />10.AddCluster設定完成之後,按下右上角的「Apply」<br />11.「cluster」,點選它,分群結果跑出了10個分群。<br /><br />操作方式二.(直接從clusterer選擇CascadeSimpleKMeans)<br />1.開啟Weka,在Weka GUI Chooser中,選擇Explorer。<br />2.按下左上角的「Open file…」。現在Files of Type選擇「CSV data files (*.csv)」,這時候才能顯示CSV格式的檔案,然後按下右下角的「Open」。<br />3.直接選接上方工具列”cluster”<br />4. 在clusterer的下方按下「Choose」「weka.clusterers.CascadeSimpleKMeans」。<br />5. 按下Choose旁邊的粗體字「CascadeSimpleKMeans」,開啟進階設定「maxNumClusters」(10)跟「minNumClusters」(2)<br />6.在cluster mode 下方按下「Ignore attributes」開啟進階設定.點選第一欄後按下select(把第一欄id不列入分群)<br />7.接著按下start進行,分群結果跑出了8個分群。<br /><br />問題二:Cascade K-means分群結果,會有各群的質心資料嗎?我完全找不到,是不是要用人工計算各群的平均呢?<br /><br /><br />上列問題有點多,麻煩布丁老師解惑了,感謝您<br /><br />Anonymousnoreply@blogger.com