:::

彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English

彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag / Identify the Part of Speech in Chinese and English

image

(圖片來源:e-Tutorial World)

文本分析時常會用到詞性(Part of Speech,簡稱POS)作為判斷依據。現在流行的中文斷詞器結巴(Jieba)具備詞性判斷的功能,這篇將整理56種詞性標記代號的意義,並加上標點符號的自訂詞典以補足結巴無法辨識標點符號的問題。此外,結巴僅會將英文詞性標示為「eng」,這難以用在中英混雜的文本中。因此我又另外找了Node.js上的pos函式庫,這是基於Mark Waston的FastTag詞性標註演算法,能夠為英文字分辨出45種不同的詞性。

(more...)

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

布丁布丁吃布丁

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

image

我之前的幾篇文章中一直提到資料探勘(機器學習)中黑箱演算法與白箱演算法的概念。黑箱演算法正確率高、但產生的模型難以解釋;白箱演算法能夠產生容易理解的模型,但正確率可能不高。最近在看Vidyadhar Ranade在2017年4月所寫的「White box or black box: choosing a machine learning model for your application」,覺得他對黑箱與白箱的見解頗有道理。因此試著將內容翻譯出來,讓大家對機器學習演算法中黑箱與白箱的特性有更深刻的認識。

(more...)

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

布丁布丁吃布丁

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

image

M5P樹狀迴歸演算法Weka內建的一種迴歸演算法。它可根據資料的分佈建立多種迴歸模型,依據輸入資料的不同來決定適用的迴歸模型。比起傳統的線性迴歸,M5P能夠準確預測非線性的資料,而且規則與迴歸模型容易解讀。相較於類神經網路支持向量機等黑箱演算法,白箱演算法的M5P更容易用於研究結果的解釋上。

(more...)

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

CSV to SQL Table:將CSV試算表加入到關聯式資料庫 / Import CSV File into a Database Table

image

這是一個將CSV格式資料轉換成關聯式資料庫插入表格與資料SQL語法的網頁工具。可適用於SQLitePostgreSQLMySQL等關聯式資料庫。傳統做研究時比較常用Excel、SPSS等試算表資料,但其實加入到資料庫之後,就能更容易跟其他資料交互比對、分析,也能用資料庫內建的聚合函數(aggregate functions)計算平均數、標準差等統計常用的資料中心與離度,讓資料分析更容易處理喔。

(more...)

Word專業文件排版課程目錄 / Microsoft Word 2013 Tutorial: Table of Contents

Word專業文件排版課程目錄 / Microsoft Word 2013 Tutorial: Table of Contents

image

這是Word專業文件排版課程的總目錄。Word專業文件排版是2015年我在國立空中大學第四個學期教授的課程。我將九堂面授課程的內容整理成7個單元,放到Blog供大家參考。本課程是以Microsoft Word 2013為主,教授範圍從基本的介面操作、各種功能的使用,到長文件的排版與列印。特別是後半部長文件的相關單元,特別推薦需要寫報告、論文的同學參考。

(more...)

Word長文件中的列印、分隔設定與範本 / Long Documents Layout: Print, Layout, Header and Templates in Microsoft Word

Word長文件中的列印、分隔設定與範本 / Long Documents Layout: Print, Layout, Header and Templates in Microsoft Word

image

這是Word專業文件排版課程的投影片「Word長文件中的列印、分隔設定與範本」。本單元的主題為列印與相關版面的配置,特別是分隔設定跟頁首頁尾,最後還介紹了範本的使用。本單元的投影片還搭配2個相關教材,供同學一邊學習一邊練習。

(more...)

Word長文件中的樣式、目錄與封面 / Long Documents Editing: Style, Table of Contents, and Cover in Microsoft Word

Word長文件中的樣式、目錄與封面 / Long Documents Editing: Style, Table of Contents, and Cover in Microsoft Word

image

這是Word專業文件排版課程的投影片「Word長文件的樣式、目錄與封面」。本單元的主題繼續講述長文件的各種技巧,包括樣式、目錄、佈景主題與封面頁。本單元的投影片還搭配2個相關教材,供同學一邊學習一邊練習。

(more...)