tag:blogger.com,1999:blog-16607461.post934974846461297277..comments2024-03-29T10:21:47.284+08:00Comments on 布丁布丁吃什麼?: 發掘文件中的主題:Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering布丁布丁吃布丁http://www.blogger.com/profile/13614721642960940190noreply@blogger.comBlogger5125tag:blogger.com,1999:blog-16607461.post-46714103025699896732022-12-06T12:20:59.302+08:002022-12-06T12:20:59.302+08:00您好,
由於現在事務繁雜,我可能近兩年都無法處理這個問題。
https://github.com/...您好,<br /><br />由於現在事務繁雜,我可能近兩年都無法處理這個問題。<br />https://github.com/pulipulichen/Weka-Cluster-Result-Analyzer<br />建議您fork專案來debug,可能比較快。<br />可以的話改完後記得開pull request,其他人會感激你的貢獻。布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-16842858415448861522022-12-06T10:19:36.540+08:002022-12-06T10:19:36.540+08:00您好:
我是政大圖檔所的學生,在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時,點選表頭各...您好:<br />我是政大圖檔所的學生,在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時,點選表頭各群名稱上的「下載」按鈕,下載後的txt檔是空的,txt檔裡面沒有任何東西,請問是怎麼回事呢?Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-16607461.post-89088080863419713012020-02-14T14:34:16.943+08:002020-02-14T14:34:16.943+08:00加油!加油!布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-79545233585548708022020-02-14T14:32:17.567+08:002020-02-14T14:32:17.567+08:00感謝,任何回覆都有幫助。感謝,任何回覆都有幫助。Scott Chuhttps://www.blogger.com/profile/12631765190292569672noreply@blogger.comtag:blogger.com,1999:blog-16607461.post-50939798444191422142020-02-14T14:23:44.999+08:002020-02-14T14:23:44.999+08:00To Scott Chu,
他原始的問題在這串:
http://blog.pulipuli.inf...To Scott Chu,<br /><br />他原始的問題在這串:<br />http://blog.pulipuli.info/2005/12/blogger_113544406852218769.html#c1537326887520775055<br /><br />因為這個問題的內容顯然是跟這篇主題模型有關,所以我把回答放在這篇來講。<br /><br />--------<br /><br />問題1:對於50年的大型資料,是否有批次5年之類的建立主題模型的方法?<br /><br />我沒有研究過大型資料建立主題模型的方法,但這方面的關鍵字通常會包括「incremental」增量,意思是可以處理逐步增加資料的技術。<br /><br />我在資料庫中找到了一篇2019刊登在Knowledge-Based Systems的期刊論文<br />https://www.sciencedirect.com/science/article/pii/S0950705119302874<br /><br />Wang, M., Yang, L., Yan, J., Zhang, J., Zhou, J., & Xia, P. (2019). Topic model with incremental vocabulary based on Belief Propagation. Knowledge-Based Systems, 182, 104812. doi:10.1016/j.knosys.2019.06.020<br />這篇論文提出了兩個方法ivLDA-PMI跟ivLDA-Perp,看起來是可以解決增量資料的問題<br />不過Google搜尋了一下,我找不到相關工具<br /><br />--------<br /><br />問題2:能不能每次跑5年的結果再來合併?這樣準嗎?<br /><br />在談到怎麽樣算準的這件事情之前,我們要先來定義什麼叫做「主題模型很準」Laura Dietz的投影片介紹了數學評估的Held-out Log Likelihood與Perplexity、人為評估的HUMAN-IN-THE-LOOP、分類評估的CLASSIFICATION TEST SET、以及依照你的任務自行定義的評估方式http://topicmodels.info/ckling/tmt/part4.pdf <br /><br />我還沒深入研究,所以不太確定要怎麼進行主題模型的評估在這件事情還沒確定之前,也很難說到底每跑5年再來合併這件事情是否叫做「準」<br />--------<br /><br />問題3:主題塑模有工具嗎?<br /><br />我只有用Weka的分群來跑個簡單的主題塑模過。http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html <br />實務運作上,大家普遍採用的技術是LDA。<br />我之前在介紹時有用過LDA-Based Topic Modelling in Javascript來做說明https://awaisathar.github.io/lda.js/ <br />不過它只是個簡單的應用,也沒辦法處理過大的資料<br /><br />應該還可以找得到更簡單使用的工具就是<br />但我就沒研究了<br />必須要注意的是,對中文來說,主題建模之前需要進行斷詞。大部分主題建模工具都是以空格作為判斷單詞的依據。<br />--------<br /><br />問題4:50年的資料會跑很久很久嗎?<br />我不確定50年裡面到底有多少的文字量,如果可以的話,請用資料檔案的大小來問這個問題。主題建模的效率會受到資料量、採用的演算法、使用的程式語言、機器運算能力的影響。<br />我對主題塑模的實務經驗不多,所以很難回答什麼樣的情況才是「很久很久」不過因為LDA的計算量並不是很大,對主題塑模這個任務來說,通常不會很困難吧<br />要試試看才知道了布丁布丁吃布丁https://www.blogger.com/profile/18000418899714977849noreply@blogger.com