Weka試跑文本評分 / Text Rating Test With Weka
Weka試跑文本評分 / Text Rating Test With Weka
最近我在準備教授用Weka作文本分類的時候,就順帶的一直想試試理論上可以作、但一直沒資料的「文本評分」功能。文本分類主要的分類目標(class)是「類別資料」,而文本評分的分類目標就是「連續資料」,也就是分數。於是我就順手把「Reuters-21578 Text Categorization Collection」的新聞分類轉換成數字的評分,並整合StringToWordVector篩選器跟SMOreg分類器以迴歸的方式計算評分。其中StringToWordVector需要經過調整才能讓分類器順利運作,這邊我記錄一下大致上的做法。
(more...)
Comments