tag:blogger.com,1999:blog-16607461.post4033879145331328335..comments2024-03-29T10:21:47.284+08:00Comments on 布丁布丁吃什麼?: 分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka布丁布丁吃布丁http://www.blogger.com/profile/13614721642960940190noreply@blogger.comBlogger2125tag:blogger.com,1999:blog-16607461.post-86848718348327388992020-06-24T15:01:18.405+08:002020-06-24T15:01:18.405+08:00你好,
與其說是資料會不平衡...
不如說,如果某個屬性中,單一值佔的比例過高,會造成該屬性沒有區...你好,<br /><br />與其說是資料會不平衡...<br />不如說,如果某個屬性中,單一值佔的比例過高,會造成該屬性沒有區別價值(因為大部分的案例都一樣)<br />最後分群結果會以其他屬性為主<br /><br />至於那個單一值佔比過高的屬性,就只是很剛好的分散在各個分群中而已<br /><br />----<br /><br />如果有問題的話,不妨就自己動手驗證看看吧<br /><br />https://docs.google.com/spreadsheets/d/13Hw_jDT8wmyca41o5Zbi2zxMz89cLxdMBtPF9hFfvt0/edit?usp=sharing<br />這裡有10筆資料,裡面有三種屬性:gender、age、income<br />gender中male佔了80%,非常高<br />age則是平衡的各為1、2<br />income則更加分散,分成1、2、3<br /><br />用這樣的資料集來做K-Means分群,分成3群後,結果如下:<br />https://docs.google.com/spreadsheets/d/1M9hHVMrKy6rsB8_DCkl5AHwgRtbg1w4WvFCdg7YmwYs/edit?usp=sharing<br /><br />- 數量最少的cluster3只有2筆案例,它的age跟income都是1,男女各半<br />- 數量次少的cluster2有3筆案例,它會主要是age為1、income較高、男生的情況<br />- 數量最多的cluster1有5筆案例,它的age跟income都偏中上,男生4位,女生1位<br /><br />就結果來說,age跟income會成為分群主要的依據<br />佔比最高的性別比例,在各分群中的分佈,看起來都跟整體差不多,因此也就不太特別<br /><br />----<br /><br />換個例子來說明,你在一所男子高中裡隨機挑選一個班級,班級裡面男生佔比例很大<br />但這件事情非常理所當然,並不令人意外<br /><br />因為你挑的是男子高中布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-83545969499410804132020-06-12T09:46:54.864+08:002020-06-12T09:46:54.864+08:00嗨布丁您好,
謝謝你非常詳細的操作介紹
但我有一個小小的疑問,
如果依上面這樣的分群操作
成果不會受...嗨布丁您好,<br />謝謝你非常詳細的操作介紹<br />但我有一個小小的疑問,<br />如果依上面這樣的分群操作<br />成果不會受到資料不平衡的影響嗎?<br />(例如:男性的數據比數較多,所以cluster基本分類都會偏向男性)<br />Anonymousnoreply@blogger.com