:::

自動決定最佳化分群數量:X-means / Determin the Optimal Number of Clusters: X-means

image

能夠自動決定分群數量的演算法,除了層疊K平均分群法之外,Weka裡面還有另一個分群法也能做到類似的目的,那就是X-means。X-means為每個分群結果計算貝氏資訊準則BIC Score,以此決定是否要將資料分成更多群。跟層疊K平均分群法一樣,它可以讓使用者選定分群數量的可能範圍。然而實際使用幾次後,我發現X-means的分群數量偏少,而且原理也不如層疊K平均分群法使用的Calinski-Harabasz指標(CH指標)容易解釋。因此比起X-means,我個人還是比較推薦使用層疊K平均分群法。本投影片的內容參考了X-means原論文[x-means] 1.x-means简介


投影片 / Slide

我以Google簡報的檔案匯出成PPTX,再備份到以下位置:

Weka中使用X-means / X-means in Weka

image

Weka預設並沒有包含X-means分群演算法,必須使用套件安裝來安裝「XMeans」套件才行。關於在Weka中安裝套件的做法,請參考「Weka下載與套件安裝教學」這篇。


小結 / In closing

好的,寫完X-means之後這篇,我在去年年底演講的投影片跟工作的記錄就告一段落了。去年年底開始我做了很多分析技術的研究。有些做了一半,結果並不讓人滿意,像是對數線性模式分析的分析太過複雜。有些當時研究了半天覺得這方向不好,後來又找尋跟容易的做法,例如從時間序列分析與預測的ARIMA轉變成用Weka實作多變項時間序列預測的機器學習。一路整理下來,也可以看到分析技術的小小成長吧。

不過我得說的是,其實這些分析技術並不新,相關的理論與應用都已經百花鳴放。我所做的事情大多只是把做法整理得比較簡單、容易讓未來的自己跟其他人使用而已。

可惜的是,這些分析技術跟我的畢業論文,並沒有什麼直接的關係。真正的資料分析方法,是要依據研究問題跟資料特性來選擇,並且是以迭代的方式探索、驗證、再探索、再驗證的方式,找出研究希望得到的答案。因此這一系列的資料分析方法,都只能算是入門操作手冊而已。

不管怎麼說,把它記錄在blog中供大家參考,也給自己的成長留下記錄,這才是我把它整理在blog的主要理由吧。


這一篇X-means分群演算法的介紹就談到這裡了。你是否還知道其他的分群演算法呢?像是SOM或大家很常用的階層分群法?你通常使用什麼分群演算法呢?歡迎在下面的留言處與我分享你的看法,或是在AddThis分享工具上按讚、分享到Facebook等社群媒體。感謝你的耐心閱讀,讓我們下次見囉!

0 意見:

留言工具: