Comments on 布丁布丁吃什麼？: 自動決定最佳化分群數量：層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

不客氣

2018-06-16T16:05:07.742+08:00

不客氣

謝謝老師!!

2018-06-16T15:53:26.786+08:00

謝謝老師!!

不客氣

2018-06-13T11:24:42.690+08:00

不客氣

好,多谢!

2018-06-13T10:06:00.476+08:00

好,多谢!

https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4...

2018-06-12T20:06:45.506+08:00

https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png

圖中只有restarts 9/10的後半部跟10/10的全部
你看到的 k:2 CH:875.49 是最後一次的結果
前面第二次有 k:2 CH:934.23，是最高值
所以最後只會挑最高值出來比較

自己跑一遍看看吧？

可是在您这张图中 https://lh3.googleusercontent.com/-gTy43q...

2018-06-12T17:53:57.114+08:00

可是在您这张图中 https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png
restart 10 的最大CH值为: k2: CH: 875.49, 而在最后这行 max CH里并没有这个数字?

因為K-means是亂數選擇起始群心，可能會有不確定性，所以CascadeSimpleKMeans採...

2018-06-12T16:01:56.556+08:00

因為K-means是亂數選擇起始群心，可能會有不確定性，所以CascadeSimpleKMeans採用了多次重複執行K-means、取得最高CH指標作為代表的做法

請看CascadeSimpleKMeans的說明

NAME
weka.clusterers.CascadeSimpleKMeans

SYNOPSIS
Cascade simple k means, selects the best k according to calinski-harabasz criterion. For more information see:

T. Calinski, J. Harabasz (1974). A dendrite method for cluster analysis.

OPTIONS
seed -- The random number seed to be used.

printDebug -- Print debugging information to the console

initializeUsingKMeansPlusPlusMethod -- Initialize cluster centers using the probabilistic farthest first method of the k-means++ algorithm

minNumClusters -- The minimum number of clusters to consider

restarts -- The number of restarts to use

debug -- If set to true, clusterer may output additional info to the console.

manuallySelectNumClusters -- Manually select the number of clusters to use from the results generated

doNotCheckCapabilities -- If set, clusterer capabilities are not checked before clusterer is built (Use with caution to reduce runtime).

maxIterations -- Maximum number of iterations for k-means

distanceFunction -- The distance function to use - only euclidean and manhattan are allowed

maxNumClusters -- The maximum number of clusters to consider

CascadeSimpleKMeans可以設定restarts的次數，預設是10
https://lh3.googleusercontent.com/-IZfIeMDr5hM/Wx98liCoB-I/AAAAAAADwH4/aRLXf-cCZlwi-Em2JcuxZGPFREdZB-m_ACHMYCw/s0/2018-06-12_15-55-45.png

Log中最後的max CH: [934.23 497.5 351.53 291.8 243.82 208.47 186.86 161.56 152.27]表示K=2 ~ K=10每一種分群方式restart 10次中最高CH指標
K=2 ~ K=10只有9種組合，並不會有10種

您好,想请教下. 是就看最后一个 restart 吗? 也就是第10个. 这最后一行的 max C...

2018-06-12T15:28:21.797+08:00

您好,想请教下. 是就看最后一个 restart 吗? 也就是第10个.

这最后一行的 max CH [......] 为什么和前面的CH最大值不一样,而且是并没有10个

不客氣

2018-06-12T10:39:32.613+08:00

不客氣

好的, 感谢!

2018-06-12T10:25:53.154+08:00

好的, 感谢!

論文參考來源： Caliński, T., & Harabasz, J. (1974). A...

2018-06-11T14:08:25.466+08:00

論文參考來源：
Caliński, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics, 3(1), 1-27. doi:10.1080/03610927408827101
公式出現在第10頁

以下我是從別人的報告中取出整理過的公式：
CH(K)的公式
https://lh3.googleusercontent.com/-2tktJCRD6nw/Wv6-Va_3ZAI/AAAAAAADvFI/gX82TTSYgYMqZmodaz10_97KXjafuyJdACHMYCw/s0/chk.png

trace B的公式
https://lh3.googleusercontent.com/-WKm5TuROVEw/Wv6-VFlrPRI/AAAAAAADvFA/xZGKsbYo74UALS-weYGTcF1-hFhJHPjmQCHMYCw/s0/traceB.png

traceW的公式
https://lh3.googleusercontent.com/-XAOw9erDF7M/Wv6-VHBC13I/AAAAAAADvFE/FeyAu5Dz3TQMCOxiK2jZI-WfJ_-0RNhmgCHMYCw/s0/traceW.png

要看到CK指標的話，請開啟Weka GUI Chooser > Program > Lo...

2018-06-11T14:03:21.928+08:00

要看到CK指標的話，請開啟Weka GUI Chooser > Program > LogWindow
https://lh3.googleusercontent.com/-w4jZmj4SGH4/Wx4P0avVnLI/AAAAAAADwCQ/NjU8gzcRj1Us4ShUCDRyUg2xsMMotipkACHMYCw/s0/2018-06-11_13-59-24.png

然後使用CascadeSimpleKMeans
LogWindow就會出現計算結果
https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4QEASWTlI/AAAAAAADwCY/sVKbbI8HYf8iRKfXMCOhBdhQdFkmZJJFgCHMYCw/s0/2018-06-11_14-00-27.png
例如：
cascade> k:2 CH:875.49 W:3.48 (unweighted:1506) B:3045 (unweighted:3045)
cascade> k:3 CH:470.86 W:3.11 (unweighted:1345) B:1466 (unweighted:2932)
所以k=2的時候，CH指標最高，最後選擇k=2

老師好抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一...

2018-06-05T05:13:48.352+08:00

老師好
抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一樣是以Calinski-Harabasz(CH)指標為判別方法嗎?
另外就是想請教的是CH指標的公式,從您的教學簡報中了解是CH(K)=(trace B/(K-1))/(trace W/(N-K)) ,此公式的推導是否是從論文「 A dendrite method for cluster analysis 」而來呢,再麻煩老師您撥空回覆,謝謝!

您好, 想请教下. weka 的 Cascade K-Means 会在结果中给出 K=某个数时的最大...

2018-06-04T17:28:02.902+08:00

您好, 想请教下.
weka 的 Cascade K-Means 会在结果中给出 K=某个数时的最大 CH 指数, 比如 highest CH for k=3: ....

但能看到所有每个k 所对应的 CH指数吗?

試試看，有問題再問吧！

2018-04-26T14:51:41.869+08:00

試試看，有問題再問吧！

謝謝布丁老師的稱讚....開心(撒花)..^^ 今天立馬再來試做一次,感謝老師解惑!

2018-04-26T10:16:41.576+08:00

謝謝布丁老師的稱讚....開心(撒花)..^^
今天立馬再來試做一次,感謝老師解惑!

您好，您讀得很仔細，值得稱讚。沒錯，其實在Preprocess裡面，我少講了一個步驟在設定...

2018-04-25T19:58:58.770+08:00

您好，

您讀得很仔細，值得稱讚。

沒錯，其實在Preprocess裡面，我少講了一個步驟
在設定好AddCluster的Filter之後，還要在右下角將class設定為「No class」
https://lh3.googleusercontent.com/-20bGwcxOC4I/WuBs03XlpsI/AAAAAAADtxk/i8WTa_KidKUx-T5XexYjwliJlbFFxRC9ACHMYCw/s0/2018-04-25_19-55-57.png
這是因為在Preprocess中AddCluster的時候，除了設定的ignoredAttributeIndices之外，還會忽略被選為class的屬性（預設是最後一個屬性）
但是在Cluster中，則只會看Ignore attributes

因此在Preprocess中還要多一個步驟，這才是正確答案。

布丁老師早安，又來打擾您了有幾個小問題想跟您請教問題一:目前在用Cascade K-means...

2018-04-25T05:12:19.356+08:00

布丁老師早安，又來打擾您了
有幾個小問題想跟您請教

問題一:目前在用Cascade K-means進行分群時，發現同一筆資料因為操作順序的不同，所分出來的群數也會不同，不知道是那裡出了錯>"<
操作方法一(同布丁老師講述的方法進行)
1.開啟Weka，在Weka GUI Chooser中，選擇Explorer。
2.按下左上角的「Open file…」。現在Files of Type選擇「CSV data files (*.csv)」，這時候才能顯示CSV格式的檔案，然後按下右下角的「Open」。
3.按下Filter底下的Choose。
4.選擇「weka.filters.unsupervised.attribute.AddCluster」
5.進入AddCluster的設定。在clusterer的右邊按下「Choose」，選擇「weka.clusterers.CascadeSimpleKMeans」。
6.在ignoredAttributeIndices裡面輸入1，表示「編號1的特徵(也就是工作編號)不納入分群中」
7.按下clusterer旁邊的粗體字「CascadeSimpleKMeans」，開啟進階設定。
8.設定「maxNumClusters」(10)跟「minNumClusters」(2)
9.按下「OK」退出
10.AddCluster設定完成之後，按下右上角的「Apply」
11.「cluster」，點選它，分群結果跑出了10個分群。

操作方式二.(直接從clusterer選擇CascadeSimpleKMeans)
1.開啟Weka，在Weka GUI Chooser中，選擇Explorer。
2.按下左上角的「Open file…」。現在Files of Type選擇「CSV data files (*.csv)」，這時候才能顯示CSV格式的檔案，然後按下右下角的「Open」。
3.直接選接上方工具列”cluster”
4. 在clusterer的下方按下「Choose」「weka.clusterers.CascadeSimpleKMeans」。
5. 按下Choose旁邊的粗體字「CascadeSimpleKMeans」，開啟進階設定「maxNumClusters」(10)跟「minNumClusters」(2)
6.在cluster mode 下方按下「Ignore attributes」開啟進階設定．點選第一欄後按下select(把第一欄id不列入分群)
7.接著按下start進行，分群結果跑出了8個分群。

問題二:Cascade K-means分群結果，會有各群的質心資料嗎？我完全找不到，是不是要用人工計算各群的平均呢？

上列問題有點多，麻煩布丁老師解惑了，感謝您

Comments on 布丁布丁吃什麼？: 自動決定最佳化分群數量：層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

不客氣

謝謝老師!!

不客氣

好,多谢!

https://lh3.googleusercontent.com/-gTy43qSJGFo/Wx4...

可是在您这张图中 https://lh3.googleusercontent.com/-gTy43q...

因為K-means是亂數選擇起始群心，可能會有不確定性，所以CascadeSimpleKMeans採...

您好,想请教下. 是就看最后一个 restart 吗? 也就是第10个. 这最后一行的 max C...

不客氣

好的, 感谢!

論文參考來源： Caliński, T., & Harabasz, J. (1974). A...

要看到CK指標的話，請開啟Weka GUI Chooser > Program > Lo...

老師好 抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一...

您好, 想请教下. weka 的 Cascade K-Means 会在结果中给出 K=某个数时的最大...

試試看，有問題再問吧！

謝謝布丁老師的稱讚....開心(撒花)..^^ 今天立馬再來試做一次,感謝老師解惑!

您好， 您讀得很仔細，值得稱讚。 沒錯，其實在Preprocess裡面，我少講了一個步驟 在設定...

布丁老師早安，又來打擾您了 有幾個小問題想跟您請教 問題一:目前在用Cascade K-means...

老師好抱歉又來打擾您了,這次想要跟您請教的是Cascade K-means演算法它所依循的公式,一...

您好，您讀得很仔細，值得稱讚。沒錯，其實在Preprocess裡面，我少講了一個步驟在設定...

布丁老師早安，又來打擾您了有幾個小問題想跟您請教問題一:目前在用Cascade K-means...