:::

找出你關注的隱含知識:以Cortana做子群組探勘 / Discovery Knowledge in Your Interesting Target: Subgroup Discovery with CORTANA

布丁布丁吃布丁

找出你關注的隱含知識:以Cortana做子群組探勘 / Discovery Knowledge in Your Interesting Target: Subgroup Discovery with CORTANA

image

聚焦於你感興趣的關聯規則:Weka的HotSpot演算法之後,這篇要介紹的是實作了Exceptional Model Mining的子社群探勘(subgroup discovery)專門工具:CORTANA。跟HotSpot相比,CORTANA不僅可以探勘連續類型的目標變項(target variable),還能夠綜合多個目標變項成為一個目標概念(target concept),以此找到最能符合目標概念的子群組(subgroup)。

(more...)

如何讓PDF文件歪斜轉正?使用Acrobat Pro的編輯PDF工具 / How to Deskew and Straighten a Scanned PDF in Acrobat Pro

如何讓PDF文件歪斜轉正?使用Acrobat Pro的編輯PDF工具 / How to Deskew and Straighten a Scanned PDF in Acrobat Pro

image

在數位化的時代裡面,現在很多文件都是以PDF的方式保存。以往數位典藏盛行的時代,許多PDF並非是原生的電子文件,而大多是由列印或影音下來的紙本掃描而成。而掃描的文本最常見的問題就是偏斜、不正,這會造成電腦與平板閱讀的時候有很多問題。這篇我介紹使用Adobe Acrobat Pro來將掃描文件以OCR技術使之變成可選取的文字,再以編輯EDIT功能將歪斜的文字校正至垂直。做法很簡單,我想應該很多人會需要這樣的技術,在這裡整理一下這整套做法。

(more...)

彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English

彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English

image

(圖片來源:e-Tutorial World)

文本分析時常會用到詞性(Part of Speech,簡稱POS)作為判斷依據。現在流行的中文斷詞器結巴(Jieba)具備詞性判斷的功能,這篇將整理56種詞性標記代號的意義,並加上標點符號的自訂詞典以補足結巴無法辨識標點符號的問題。此外,結巴僅會將英文詞性標示為「eng」,這難以用在中英混雜的文本中。因此我又另外找了Node.js上的pos函式庫,這是基於Mark Waston的FastTag詞性標註演算法,能夠為英文字分辨出45種不同的詞性。

(more...)

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

布丁布丁吃布丁

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

image

我之前的幾篇文章中一直提到資料探勘(機器學習)中黑箱演算法與白箱演算法的概念。黑箱演算法正確率高、但產生的模型難以解釋;白箱演算法能夠產生容易理解的模型,但正確率可能不高。最近在看Vidyadhar Ranade在2017年4月所寫的「White box or black box: choosing a machine learning model for your application」,覺得他對黑箱與白箱的見解頗有道理。因此試著將內容翻譯出來,讓大家對機器學習演算法中黑箱與白箱的特性有更深刻的認識。

(more...)

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

布丁布丁吃布丁

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

image

M5P樹狀迴歸演算法Weka內建的一種迴歸演算法。它可根據資料的分佈建立多種迴歸模型,依據輸入資料的不同來決定適用的迴歸模型。比起傳統的線性迴歸,M5P能夠準確預測非線性的資料,而且規則與迴歸模型容易解讀。相較於類神經網路支持向量機等黑箱演算法,白箱演算法的M5P更容易用於研究結果的解釋上。

(more...)

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

image

這是一個將CSV格式資料轉換成關聯式資料庫插入表格與資料SQL語法的網頁工具。可適用於SQLitePostgreSQLMySQL等關聯式資料庫。傳統做研究時比較常用Excel、SPSS等試算表資料,但其實加入到資料庫之後,就能更容易跟其他資料交互比對、分析,也能用資料庫內建的聚合函數(aggregate functions)計算平均數、標準差等統計常用的資料中心與離度,讓資料分析更容易處理喔。

(more...)

Word專業文件排版課程目錄 / Microsoft Word 2013 Tutorial: Table of Contents

Word專業文件排版課程目錄 / Microsoft Word 2013 Tutorial: Table of Contents

image

這是Word專業文件排版課程的總目錄。Word專業文件排版是2015年我在國立空中大學第四個學期教授的課程。我將九堂面授課程的內容整理成7個單元,放到Blog供大家參考。本課程是以Microsoft Word 2013為主,教授範圍從基本的介面操作、各種功能的使用,到長文件的排版與列印。特別是後半部長文件的相關單元,特別推薦需要寫報告、論文的同學參考。

(more...)