解釋性文字探勘 / Explainable Text Mining
這是演講「解釋性文字探勘」所使用的投影片跟相關檔案連結。
投影片 / Slide
- 解釋性文字探勘: Google Slide, PDF
教材 / Materials
- 練習檔案:旅館評論.ods
(下載ods, 線上檢視) - 軟體:LibreOffice
https://zh-tw.libreoffice.org/download/libreoffice-still/ - 工具:Colab 文字雲 (旅館評論_負面.csv, 旅館評論_正面.csv)
- 工具:WordClouds.com (圖示:dislike, like)
- 工具:Colab 原型與批評
簡介 / Description
「解釋性文字探勘」介紹了兩種文字探勘的做法:文字雲、找尋代表案例。有別於以往的文字探勘教學,本次「解釋性文字探勘」著重於「解釋性」的這個面向,並且以「比較」作為解釋性的做法。「解釋性文字探勘」試圖找出資料集在不同類別的差異:「A類跟B類的文本內容,到底講了那些不同的東西?」、「A類跟B類的代表性案例又是誰?」
為了實作解釋性文字探勘的目的,本次教學在基於多種預處理的文本模型之上,將子群組探勘(subgroup)技術應用到文字雲,也將可解釋機器學習中找尋原型(prototypes)跟批評(criticism)的MMD Critic演算法應用在文本探勘中。前者可說明不同類別文本之間的差異,後者則是找尋個別類別中具有代表性的原型案例與非典型的批評案例。兩種分析結果可彼此搭配應證,拓展文本分析的面向。
兩種分析方式都以Google Colab線上網頁實作。如果要檢視資料集ods或csv檔案,則需要在電腦安裝LibreOffice,用LibreOffice Calc開啟檢查。Office Excel會因為無法讀取UTF-8格式而變成亂碼。
最後來問大家一個問題:今天解釋性文字探勘所講到的兩種分析方式,還可以用來分析那些資料呢?
下面留言說說你的看法吧!
之前因為套件版本更新而無法運作。指定套件版本之後,現在能夠正常運作了。
回覆刪除