:::

超簡單!文本機器分類入門 / Text Classification with Weka

image

這篇「超簡單!文本機器分類入門」是我在2017年3月於政大圖檔所資料探勘課程中的演講內容,之後演化成後來我在巨量資料探勘與統計應用課程中「非結構化資料分析:文本分類」單元的內容。如果想要看比較完整的文本分類介紹,請看「非結構化資料分析:文本分類」這篇。不過想要看獨立的文本分類課程的話,那也可以從這篇開始看起喔。


大綱 / Outline

  1. 從資料談起:非結構資料到結構資料
  2. 文本語義分析
  3. 機器學習:文本分類
  4. 找出分類關鍵字:特徵篩選
  5. 進階文本分類:如何讓分類更精準
  6. 結論

投影片 / Slide

工具程式 / Tools

image

  • 資料處理工具:Google雲端硬碟:需有Google帳號 (因為Excel處理中文會變成亂碼,在此不建議使用Excel)

網頁工具:

文本資料 / Text data set

image


小結 / In closing

封面

本單元的靈感跟部分內容來自於「王者歸來: WEKA機器學習與大數據聖經」一書。但是書中在介紹「文字分類」一節時,必須要先對文本進行大量的前處理,而最後的輸出也不容易閱讀。因此這讓我開始了後面一連串用自行製作的網頁來輔助Weka分析的開發。到目前為止,有好好整理的Weka工具包括了「Jieba-JS與文字探勘」、「分群結果分析器」跟「貝氏網路工具」三個專案。其中,中文斷詞工具Jieba-JS我在演講前事先專文撰寫,但實際上那篇Jieba-JS的功能是為了這次的演講,而這次的演講則是為了我在巨量資料探勘與統計應用課程中最後一個單元「非結構化資料分析:文本分類」而準備。

11892152_1056794800998516_8282512244412633691_n

(圖片來源:賭神2 - 宅熊看國片)

雖然不到一年,但這個演講可說是準備整個巨量資料探勘與統計應用課程的開始,也花了3個月之久。當時做完演講之後就忙著繼續準備課程的備課,所以並沒有及時寫成blog。過了半年之後,這份演講終於重見天日,有機會跟大家見個面,想來真是感嘅。

這篇對於文本分類的一些想法,我都已經寫在「非結構化資料分析:文本分類」中了。這篇就算是為我在三月的演講作一個記錄吧。

0 意見:

留言工具: