:::

用Weka找出最特別的文本:局部異數因素之異常偵測 / Mining the Special Text with Weka: Local Outlier Factors (LOF) for Anomaly Detection

布丁布丁吃布丁

用Weka找出最特別的文本:局部異數因素之異常偵測 / Mining the Special Text with Weka: Local Outlier Factors (LOF) for Anomaly Detection

﹒歧ˍ 瞞mss cesoy cuse謬 rosm ˍ棍 Openfie E Generate. Undo Edit... Savg Filter怎 4 Aas a.core.neighboursearch LinearNNSearch -A weka.core EuclideanDistance -R first-last™ -num-slots 1 Apply 1 e Ing-lof tokenizatig HR: K3 Type: Numeric SunTof welts: 30 ASSing: Distinct: 30 Unique: 30 100% 悠 【 l 人一了L ﹤ a 一u 一﹚川 巳【 No, Name OF v visualize All J as 2010 鼻Co QUE暴 2011 £人 2012 量0 2013體 ” / K 5下下z// Z 時 0000 ˍ下 4 1 1.12 125 e g ˍ

我們要如何在大量文本當中,快速找出談論內容與眾不同、別有見地的文本呢?字數長短可能會被灌水,從字詞內容著手,也許是個合理的開始。本篇將應用資料探勘中異常偵測(anomaly detection)常見的演算法:局部異數因素(Local Outlier Factor, LOF),在Weka中找出用詞最為與眾不同的文本。

(more...)

研究生看過來!PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

布丁布丁吃布丁

研究生看過來!PDF論文閱讀神器 / Wrapped Text Formatter: Read Large Paragraph Text from PDF in Comfortable Way

33闌pupo te work seeks to present a reading agss 01, which can annotate a web page with HTML format archived by the E 設目的 px This work s日鐸普閻商和商情啁返工代台在捐出一佐閉活批註周知識共京工具,它 Je 9 age with ML format可以基於Web 2﹒0技術註釋網頁與HTML格式由台灣 rc WW gital ON ER EEE HERR w設詠/方法/方法 巳N亢一 m [ 3知 戶早夷4 e 7 ¢ 2: 殘皋品和 er採用了這樣的準實驗設計方法隨機分配參與耆的實驗 j煬組, j所建議註釋紹統 公芋 A quasi-exp 4 sign participants to an e e gro 0 evaluate differences in the reaaing performance of learr壘純口分析計割怎用曠譚佗孰生的學習表現,同時讀賣 lor ir普和處理建議的註釋工資學習的差異 【 i 3 s!aristical analvsis seheme was emnlnved in evaliiate圖in 蹟

每次看到PDF中有著一大段的文字時,你會不會感到腦袋跟這些文字一樣糊成一團呢?在讀英文論文的PDF檔案時,總是想把看不懂的段落複製、貼上到Google翻譯,但是你有遇過因為一句話被斷成兩到三行、APA引用的括號卡在中間,讓Google翻譯的結果看起來非常奇怪的窘境嗎?

放心,這些問題通通交給PDF論文閱讀神器來解決。它能將PDF複製的文字重整成一句話一個段落(中英文皆可)、自動翻譯成指定中文,快用它來加快你的論文閱讀速度吧!

(more...)

如何將試算表裡面的換行和TAB等特殊字元換成空格? / How to Replace Special Characters (Line Breaks and Horizontal Tabs) from Cells by Spaces in Spreadsheets?

如何將試算表裡面的換行和TAB等特殊字元換成空格? / How to Replace Special Characters (Line Breaks and Horizontal Tabs) from Cells by Spaces in Spreadsheets?

ed = 3 =
Er us xX pg». . 5 ﹣ sA气田三~ ~卜~宁~一國回平維
C必S
入A
Ag
SA FILTERED
Go  | LINE
LINE3 LINE 2 E2LihE3 ﹝
」簡倉史g
﹍ oa譚烈茹縹屹
7
8
a E filtered ~ a

我們時常使用LibreOffice CalcGoogle試算表、以及Microsoft Excel等試算表工具來整理資料,但當資料裡面有些「換行」(new lines)、「Tab」(也就是製表鍵(tabulator key)或表格鍵(tabular key)的縮寫)、前後空白、中文空白時,常常會在轉換成CSV、輸入到Weka或其他工具時,造成解讀資料時發生錯誤。

要移除「換行」和「Tab」等特殊字元的話,難道還要寫Python程式嗎?不用,我們只要在試算表工具裡面加入一個函數,就可以輕鬆將「換行」和「Tab」等特殊字元轉換成空白字元囉。讓我們來看看怎麼做吧。

(more...)

發掘文件中的主題:Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

發掘文件中的主題:Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

5-Weka_Discover_the_Topic_of_Text.png

在以文字撰寫的大量文件中發掘這些文件所共同描述的主題,這類型的技術稱之爲「主題塑模」(Topic Modeling),而資料探勘中的分群就是實作主題塑模的其中一種做法。本篇就來說明如何用開放原始碼資料探勘工具Weka中的層疊式K平均法分群演算法來找出文件中的主題。

(more...)