用Weka找出最特別的文本：局部異數因素之異常偵測 / Mining the Special Text with Weka: Local Outlier Factors (LOF) for Anomaly Detection

布丁布丁吃布丁

7月 23, 2019 0 Comments Research/Text Mining Software/Weka

用Weka找出最特別的文本：局部異數因素之異常偵測 / Mining the Special Text with Weka: Local Outlier Factors (LOF) for Anomaly Detection

我們要如何在大量文本當中，快速找出談論內容與眾不同、別有見地的文本呢？字數長短可能會被灌水，從字詞內容著手，也許是個合理的開始。本篇將應用資料探勘中異常偵測(anomaly detection)常見的演算法：局部異數因素(Local Outlier Factor, LOF)，在Weka中找出用詞最為與眾不同的文本。

(more...)

研究生看過來！PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

布丁布丁吃布丁

7月 20, 2019 57 Comments Work/Widget

研究生看過來！PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

每次看到PDF中有著一大段的文字時，你會不會感到腦袋跟這些文字一樣糊成一團呢？在讀英文論文的PDF檔案時，總是想把看不懂的段落複製、貼上到Google翻譯，但是你有遇過因為一句話被斷成兩到三行、APA引用的括號卡在中間，讓Google翻譯的結果看起來非常奇怪的窘境嗎？

放心，這些問題通通交給PDF論文閱讀神器來解決。它能將PDF複製的文字重整成一句話一個段落(中英文皆可)、自動翻譯成指定中文，快用它來加快你的論文閱讀速度吧！

(more...)

如何將試算表裡面的換行和TAB等特殊字元換成空格？ / How to Replace Special Characters (Line Breaks and Horizontal Tabs) from Cells by Spaces in Spreadsheets?

布丁布丁吃布丁

7月 19, 2019 4 Comments Software/GoogleDoc Software/LibreOffice

如何將試算表裡面的換行和TAB等特殊字元換成空格？ / How to Replace Special Characters (Line Breaks and Horizontal Tabs) from Cells by Spaces in Spreadsheets?

我們時常使用LibreOffice Calc、Google試算表、以及Microsoft Excel等試算表工具來整理資料，但當資料裡面有些「換行」(new lines)、「Tab」(也就是製表鍵(tabulator key)或表格鍵(tabular key)的縮寫)、前後空白、中文空白時，常常會在轉換成CSV、輸入到Weka或其他工具時，造成解讀資料時發生錯誤。

要移除「換行」和「Tab」等特殊字元的話，難道還要寫Python程式嗎？不用，我們只要在試算表工具裡面加入一個函數，就可以輕鬆將「換行」和「Tab」等特殊字元轉換成空白字元囉。讓我們來看看怎麼做吧。

(more...)

發掘文件中的主題：Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

布丁布丁吃布丁

7月 09, 2019 5 Comments Data Mining Research/Text Mining Software/Weka

發掘文件中的主題：Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

在以文字撰寫的大量文件中發掘這些文件所共同描述的主題，這類型的技術稱之爲「主題塑模」(Topic Modeling)，而資料探勘中的分群就是實作主題塑模的其中一種做法。本篇就來說明如何用開放原始碼資料探勘工具Weka中的層疊式K平均法分群演算法來找出文件中的主題。

(more...)

訂閱：文章 (Atom)

布丁布丁吃什麼？