您好，由於現在事務繁雜，我可能近兩年都無法處理這個問題。 https://github.com/...

2022-12-06T12:20:59.302+08:00

您好，

由於現在事務繁雜，我可能近兩年都無法處理這個問題。
https://github.com/pulipulichen/Weka-Cluster-Result-Analyzer
建議您fork專案來debug，可能比較快。
可以的話改完後記得開pull request，其他人會感激你的貢獻。

您好：我是政大圖檔所的學生，在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時，點選表頭各...

2022-12-06T10:19:36.540+08:00

您好：
我是政大圖檔所的學生，在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時，點選表頭各群名稱上的「下載」按鈕，下載後的txt檔是空的，txt檔裡面沒有任何東西，請問是怎麼回事呢？

加油！

2020-02-14T14:34:16.943+08:00

加油！

感謝，任何回覆都有幫助。

2020-02-14T14:32:17.567+08:00

感謝，任何回覆都有幫助。

To Scott Chu, 他原始的問題在這串： http://blog.pulipuli.inf...

2020-02-14T14:23:44.999+08:00

To Scott Chu,

他原始的問題在這串：
http://blog.pulipuli.info/2005/12/blogger_113544406852218769.html#c1537326887520775055

因為這個問題的內容顯然是跟這篇主題模型有關，所以我把回答放在這篇來講。

--------

問題1：對於50年的大型資料，是否有批次5年之類的建立主題模型的方法？

我沒有研究過大型資料建立主題模型的方法，但這方面的關鍵字通常會包括「incremental」增量，意思是可以處理逐步增加資料的技術。

我在資料庫中找到了一篇2019刊登在Knowledge-Based Systems的期刊論文
https://www.sciencedirect.com/science/article/pii/S0950705119302874

Wang, M., Yang, L., Yan, J., Zhang, J., Zhou, J., & Xia, P. (2019). Topic model with incremental vocabulary based on Belief Propagation. Knowledge-Based Systems, 182, 104812. doi:10.1016/j.knosys.2019.06.020
這篇論文提出了兩個方法ivLDA-PMI跟ivLDA-Perp，看起來是可以解決增量資料的問題
不過Google搜尋了一下，我找不到相關工具

--------

問題2：能不能每次跑5年的結果再來合併？這樣準嗎？

在談到怎麽樣算準的這件事情之前，我們要先來定義什麼叫做「主題模型很準」Laura Dietz的投影片介紹了數學評估的Held-out Log Likelihood與Perplexity、人為評估的HUMAN-IN-THE-LOOP、分類評估的CLASSIFICATION TEST SET、以及依照你的任務自行定義的評估方式http://topicmodels.info/ckling/tmt/part4.pdf

我還沒深入研究，所以不太確定要怎麼進行主題模型的評估在這件事情還沒確定之前，也很難說到底每跑5年再來合併這件事情是否叫做「準」
--------

問題3：主題塑模有工具嗎？

我只有用Weka的分群來跑個簡單的主題塑模過。http://blog.pulipuli.info/2019/07/weka-discover-topic-of-text-collection.html
實務運作上，大家普遍採用的技術是LDA。
我之前在介紹時有用過LDA-Based Topic Modelling in Javascript來做說明https://awaisathar.github.io/lda.js/
不過它只是個簡單的應用，也沒辦法處理過大的資料

應該還可以找得到更簡單使用的工具就是
但我就沒研究了
必須要注意的是，對中文來說，主題建模之前需要進行斷詞。大部分主題建模工具都是以空格作為判斷單詞的依據。
--------

問題4：50年的資料會跑很久很久嗎？
我不確定50年裡面到底有多少的文字量，如果可以的話，請用資料檔案的大小來問這個問題。主題建模的效率會受到資料量、採用的演算法、使用的程式語言、機器運算能力的影響。
我對主題塑模的實務經驗不多，所以很難回答什麼樣的情況才是「很久很久」不過因為LDA的計算量並不是很大，對主題塑模這個任務來說，通常不會很困難吧
要試試看才知道了

Comments on 布丁布丁吃什麼？: 發掘文件中的主題：Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

您好， 由於現在事務繁雜，我可能近兩年都無法處理這個問題。 https://github.com/...

您好： 我是政大圖檔所的學生，在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時，點選表頭各...

加油！

感謝，任何回覆都有幫助。

To Scott Chu, 他原始的問題在這串： http://blog.pulipuli.inf...

您好，由於現在事務繁雜，我可能近兩年都無法處理這個問題。 https://github.com/...

您好：我是政大圖檔所的學生，在使用Weka的時候操作到步驟4-2. 下載詞頻統計結果時，點選表頭各...