:::

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

布丁布丁吃布丁

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

image

最近有讀者問到要怎麼在建立的分群結果之後,對後面新增的資料再依照前面的規則新增分群標籤。這就讓我想起來資料探勘課本裡面常常提到的一個機器學習議題:無監督式的監督學習 (Unsupervised Supervised Learning),或是成為不需訓練目標的分類法 (Classification wihtout labels),這篇就叫它作無監督分類器(Unsupervised Classification)。這個做法大多都是將分群結果作為分類的目標標籤,再以此建立分類模型。這種做法聽起來難度挺高的,不過實際在Weka中,我們只要動點巧思,不用寫任何程式,就可以實作這個高級分類技巧。這篇就來介紹一下如何實作無需監督的分類器吧。

(more...)

參加國際會議經驗分享 / How to Participate in a Conference?

布丁布丁吃布丁

參加國際會議經驗分享 / How to Participate in a Conference?

image

我在上週受邀去ASIS&T臺北分會所舉辦的「行動裝置資料與使用者研究工作坊」的「學生參與國際活動之經驗分享」分享參與國際會議的經驗。現在學術圈大多鼓勵學者參加Call for Papers類型,以全文(full paper)發表並口頭報告(oral),因此我的重點也放在如何參與這種國際研討會上。我就參與IMLF 2014IFLA WLIC 2015兩場的經驗,將整個流程歸納成 1. 投稿、2. 行程安排、3. 參與會議、4. 結案報告 的四大階段,而投影片內更加著重說明投稿時選擇研討會、投稿計劃書、摘要與全文、準備投影片和講稿的做法。在上週工作坊中因時間不夠,沒有機會跟大家好好說明,我還是在這裡放上投影片,希望可以嘉惠有意參與國際研討會的莘莘學子。

(more...)

分類與預測:貝氏網路 / Classification and Prediction: BayesNet

分類與預測:貝氏網路 / Classification and Prediction: BayesNet

image

這是巨量資料探勘與統計應用課程的投影片「分類與預測:貝氏網路」。本單元是屬於系列課程中「資料預測級」的第一個單元,處理資料類型是從「類別」來預測「類別」類型的資料。貝式網路(BayesNet)是一種能夠表示變項間因果關係的機率模型,原理簡單、計算速度快,不僅可以用來預測結果,還能推理可能的原因。貝式網路是早期專家決策支持系統最常使用的模型,例如可以用來協助醫生找尋病因。本單元先用簡單「吸菸可能造成生病」的例子來說明貝式網路的運作方式,再來使用Weka來建立貝式網路結構、準備訓練集跟測試集、顯示貝式網路模型以及預測結果。本單元使用了四個我自製的工具來搭配Weka實作貝式網路預測,單元內包含了三個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

資料預測級導論: 分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

資料預測級導論: 分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

image

這是巨量資料探勘與統計應用課程的投影片「資料預測級導論: 分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論,這份投影片是為了銜接前面的「資料檢定級」與後面的概念,資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇,都是為了獲得一個「答案」,特別適用於「類別」類型的答案,這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型,可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。

(more...)

行為順序檢定:滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

行為順序檢定:滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

image

這是巨量資料探勘與統計應用課程的投影片「行為順序檢定:序列分析」。本單元是屬於系列課程中的「資料檢定級」的最後一個單元,處理資料類型也是在行為的「類別」類型資料,使用的分析技術就是以前我常常提到的滯後序列探勘(lag sequential analysis)。滯後序列分析是延伸前一單元列聯表的檢定方式,但是不像卡方統計量是用於檢定整體列聯表,它使用Allison與Liker(1982)的調整後殘差計算方式來做細格檢定。雖然資料類型都以列聯表呈現,不過計算方法可是差很多的喔。跟以前我介紹滯後序列分析的內容相比,這次不僅採用比較嚴謹的Allison與Liker的計算方法,還加入了相關係數Yule'Q的計算,並直接用jsPlumb畫出了事件轉移圖。本單元使用我所開發的滯後序列分析計算器來作計算,包含兩個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

類別變項的相關檢定:卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

類別變項的相關檢定:卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

image

這是巨量資料探勘與統計應用課程的投影片「類別變項的相關檢定:卡方獨立性檢定」。本單元是屬於系列課程中的「資料檢定級」中的第三個單元,處理資料類型是「類別」類型的資料,可以檢測出兩兩類別資料之間的關係。本單元要講的分析技術是推論統計的卡方獨立性檢定(Chi-Square Test of Independence),相當適合質性研究所蒐集的類別資料或行為分析。本單元的分析工具是我額外開發的「卡方獨立性檢定計算器」,在投影片裡面還談到了隱含在卡方檢定之後的陷阱:辛普森詭論(Simpson's paradox)。這個單元包含了四個實作學習單,供同學邊看邊練習。

(more...)

連續變項的相關檢定:皮爾森積差相關分析 / Bivariate Correlation Analysis: Pearson Correlation Coefficient

連續變項的相關檢定:皮爾森積差相關分析 / Bivariate Correlation Analysis: Pearson Correlation Coefficient

image

這是巨量資料探勘與統計應用課程的投影片「連續變項的相關檢定:皮爾森積差相關分析」。本單元是屬於系列課程中的「資料檢定級」的第二個單元,處理資料類型是分析兩兩「連續」資料之間的關係。本單元將會教同學推論統計另外一個很常見的分析技術:皮爾森積差相關分析,它可以用來檢測兩個連續變項之間的相關程度與相關的方向。本單元使用我撰寫的皮爾森積差相關分析計算器,並不需要同學用手算。這個單元包含了二個實作學習單跟一份測驗,供同學邊看邊練習。

(more...)

連續變項的差異檢定:獨立樣本t檢定 / Testing Differences Between Means: Independent t-test

連續變項的差異檢定:獨立樣本t檢定 / Testing Differences Between Means: Independent t-test

image

這是巨量資料探勘與統計應用課程的投影片「連續變項的差異檢定:獨立樣本t檢定」。本單元是屬於系列課程中的「資料檢定級」的第一個單元,處理資料類型是從「類別」分類的「連續」資料。本單元主要教的是推論統計最常見的分析技術:獨立樣本t檢定,可以用來檢測兩組不同樣本的平均值是否有顯著差異。t檢定是由健力士的統計學家William Sealy Gosset博士發表的經典分析方法。在喝健力士啤酒的時候,可別忘了統計的t檢定喔。本單元使用了R-Web跟我撰寫的獨立樣本t檢定計算器,並不需要同學用手算。這個單元包含了二個實作學習單,供同學邊看邊練習。

(more...)

資料檢定級導論: 從數學到統計 / Inferential Statistics: An Introduction

資料檢定級導論: 從數學到統計 / Inferential Statistics: An Introduction

image

這是巨量資料探勘與統計應用課程的投影片「資料檢定級導論: 從數學到統計」。本單元是屬於系列課程中的「資料檢定級」,是銜接「資料敘述級」之後下一個階段的導言課程。許多人學習統計時,都知道統計分成敘述統計(descriptive statistics)推論統計(inferential statistics),前者很好理解,但為何需要推論統計?而這兩者又跟高中以前學的數學有什麼不一樣呢?

要理解推論統計,必須要先理解母體模型的概念。我們手邊看到的資料,在推論統計的框架中,它僅僅只是眾多樣本中的一次抽樣。因此我們在比較不同的樣本群時,注重的不是樣本的層次,而是樣本背後代表的母體模型。樣本對應到母體模型所計算出的檢定統計量,以及此檢定統計量可能出現的機率,才是推論統計的思維。

老實說,這個概念很難懂。因此我試著用自己的方式來詮釋這套思維,並在之中強調「檢定統計量」的核心概念,希望能讓同學比較容易理解推論統計的運作方式。因為本篇只是導言,並沒有任何練習內容或測驗。

(more...)

最佳化問題:規劃求解 / Optimization Problem: Solver

最佳化問題:規劃求解 / Optimization Problem: Solver

image

這是巨量資料探勘與統計應用課程的投影片「最佳化問題:規劃求解」。本單元雖然被歸類系列課程中的「資料敘述級」,但其實它跟其他的資料分析方法有很大的不同:規劃求解會直接給你明確的答案。在本單元中,處理資料類型為「連續」類型。

「規劃求解」是屬於「最佳化問題」領域中的技術。雖然同樣是處理數字,但「最佳化問題」並非「統計」,而跟「資料探勘」領域比較相近。在大部分資料探勘的工具裡,要解決的問題比較明確、使用者較難以自行控制。而許多資料探勘介紹的基因演算法(Genetic Algorithm, GA)又是「最佳化問題」中的進階技術,一般使用者難以輕易上手。所以我這個單元介紹的是「最佳化問題」中比較基礎的「規劃求解」。

「工廠在有限的物料跟時間內,要選擇生產多少產品,才能賺到最多利潤?」或者是「圖書館有10萬元經費,不同讀者想看不同類型的書,要怎麼買才能在有限經費內滿足讀者需求?」像是這些問題,都可以用規劃求解來找出答案。本單元利用Google試算表Solver來實作規劃求解,學生不用自己動手算喔。這個單元包含了三個實作學習單,供同學邊看邊練習。

(more...)