資料預測級導論：分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

布丁布丁吃布丁

10月 03, 2017 0 Comments Course Data Mining Presentation Series/Big Data Analysis Course

資料預測級導論：分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

這是巨量資料探勘與統計應用課程的投影片「資料預測級導論：分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論，這份投影片是為了銜接前面的「資料檢定級」與後面的概念，資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇，都是為了獲得一個「答案」，特別適用於「類別」類型的答案，這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型，可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。

(more...)

行為順序檢定：滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

布丁布丁吃布丁

10月 03, 2017 24 Comments Course Presentation Research/Sequential Analysis Series/Big Data Analysis Course Software/GoogleDoc Work/Widget

行為順序檢定：滯後序列分析 / Behavior Analysis: Lag Sequential Analysis

這是巨量資料探勘與統計應用課程的投影片「行為順序檢定：序列分析」。本單元是屬於系列課程中的「資料檢定級」的最後一個單元，處理資料類型也是在行為的「類別」類型資料，使用的分析技術就是以前我常常提到的滯後序列探勘(lag sequential analysis)。滯後序列分析是延伸前一單元列聯表的檢定方式，但是不像卡方統計量是用於檢定整體列聯表，它使用Allison與Liker(1982)的調整後殘差計算方式來做細格檢定。雖然資料類型都以列聯表呈現，不過計算方法可是差很多的喔。跟以前我介紹滯後序列分析的內容相比，這次不僅採用比較嚴謹的Allison與Liker的計算方法，還加入了相關係數Yule'Q的計算，並直接用jsPlumb畫出了事件轉移圖。本單元使用我所開發的滯後序列分析計算器來作計算，包含兩個實作學習單跟一份測驗，供同學邊看邊練習。

(more...)

類別變項的相關檢定：卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

布丁布丁吃布丁

10月 02, 2017 0 Comments Course Presentation Series/Big Data Analysis Course Software/GoogleDoc Work/Widget

類別變項的相關檢定：卡方獨立性檢定 / Correlations with Categorical Variables: Chi-Square Test of Independence

這是巨量資料探勘與統計應用課程的投影片「類別變項的相關檢定：卡方獨立性檢定」。本單元是屬於系列課程中的「資料檢定級」中的第三個單元，處理資料類型是「類別」類型的資料，可以檢測出兩兩類別資料之間的關係。本單元要講的分析技術是推論統計的卡方獨立性檢定(Chi-Square Test of Independence)，相當適合質性研究所蒐集的類別資料或行為分析。本單元的分析工具是我額外開發的「卡方獨立性檢定計算器」，在投影片裡面還談到了隱含在卡方檢定之後的陷阱：辛普森詭論(Simpson's paradox)。這個單元包含了四個實作學習單，供同學邊看邊練習。

(more...)

連續變項的相關檢定：皮爾森積差相關分析 / Bivariate Correlation Analysis: Pearson Correlation Coefficient

布丁布丁吃布丁

10月 02, 2017 1 Comments Presentation Series/Big Data Analysis Course Software/GoogleDoc

連續變項的相關檢定：皮爾森積差相關分析 / Bivariate Correlation Analysis: Pearson Correlation Coefficient

這是巨量資料探勘與統計應用課程的投影片「連續變項的相關檢定：皮爾森積差相關分析」。本單元是屬於系列課程中的「資料檢定級」的第二個單元，處理資料類型是分析兩兩「連續」資料之間的關係。本單元將會教同學推論統計另外一個很常見的分析技術：皮爾森積差相關分析，它可以用來檢測兩個連續變項之間的相關程度與相關的方向。本單元使用我撰寫的皮爾森積差相關分析計算器，並不需要同學用手算。這個單元包含了二個實作學習單跟一份測驗，供同學邊看邊練習。

(more...)

連續變項的差異檢定：獨立樣本t檢定 / Testing Differences Between Means: Independent t-test

布丁布丁吃布丁

9月 30, 2017 1 Comments Course Presentation Series/Big Data Analysis Course Software/GoogleDoc

連續變項的差異檢定：獨立樣本t檢定 / Testing Differences Between Means: Independent t-test

這是巨量資料探勘與統計應用課程的投影片「連續變項的差異檢定：獨立樣本t檢定」。本單元是屬於系列課程中的「資料檢定級」的第一個單元，處理資料類型是從「類別」分類的「連續」資料。本單元主要教的是推論統計最常見的分析技術：獨立樣本t檢定，可以用來檢測兩組不同樣本的平均值是否有顯著差異。t檢定是由健力士的統計學家William Sealy Gosset博士發表的經典分析方法。在喝健力士啤酒的時候，可別忘了統計的t檢定喔。本單元使用了R-Web跟我撰寫的獨立樣本t檢定計算器，並不需要同學用手算。這個單元包含了二個實作學習單，供同學邊看邊練習。

(more...)

資料檢定級導論：從數學到統計 / Inferential Statistics: An Introduction

布丁布丁吃布丁

9月 30, 2017 0 Comments Course Presentation Series/Big Data Analysis Course

資料檢定級導論：從數學到統計 / Inferential Statistics: An Introduction

這是巨量資料探勘與統計應用課程的投影片「資料檢定級導論：從數學到統計」。本單元是屬於系列課程中的「資料檢定級」，是銜接「資料敘述級」之後下一個階段的導言課程。許多人學習統計時，都知道統計分成敘述統計(descriptive statistics)跟推論統計(inferential statistics)，前者很好理解，但為何需要推論統計？而這兩者又跟高中以前學的數學有什麼不一樣呢？

要理解推論統計，必須要先理解母體模型的概念。我們手邊看到的資料，在推論統計的框架中，它僅僅只是眾多樣本中的一次抽樣。因此我們在比較不同的樣本群時，注重的不是樣本的層次，而是樣本背後代表的母體模型。樣本對應到母體模型所計算出的檢定統計量，以及此檢定統計量可能出現的機率，才是推論統計的思維。

老實說，這個概念很難懂。因此我試著用自己的方式來詮釋這套思維，並在之中強調「檢定統計量」的核心概念，希望能讓同學比較容易理解推論統計的運作方式。因為本篇只是導言，並沒有任何練習內容或測驗。

(more...)

最佳化問題：規劃求解 / Optimization Problem: Solver

布丁布丁吃布丁

9月 30, 2017 0 Comments Course Presentation Series/Big Data Analysis Course Software/GoogleDoc

最佳化問題：規劃求解 / Optimization Problem: Solver

這是巨量資料探勘與統計應用課程的投影片「最佳化問題：規劃求解」。本單元雖然被歸類系列課程中的「資料敘述級」，但其實它跟其他的資料分析方法有很大的不同：規劃求解會直接給你明確的答案。在本單元中，處理資料類型為「連續」類型。

「規劃求解」是屬於「最佳化問題」領域中的技術。雖然同樣是處理數字，但「最佳化問題」並非「統計」，而跟「資料探勘」領域比較相近。在大部分資料探勘的工具裡，要解決的問題比較明確、使用者較難以自行控制。而許多資料探勘介紹的基因演算法(Genetic Algorithm, GA)又是「最佳化問題」中的進階技術，一般使用者難以輕易上手。所以我這個單元介紹的是「最佳化問題」中比較基礎的「規劃求解」。

「工廠在有限的物料跟時間內，要選擇生產多少產品，才能賺到最多利潤？」或者是「圖書館有10萬元經費，不同讀者想看不同類型的書，要怎麼買才能在有限經費內滿足讀者需求？」像是這些問題，都可以用規劃求解來找出答案。本單元利用Google試算表的Solver來實作規劃求解，學生不用自己動手算喔。這個單元包含了三個實作學習單，供同學邊看邊練習。

(more...)

AI能夠告訴你未來？用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

布丁布丁吃布丁

9月 26, 2017 19 Comments Data Mining Software/Weka

AI能夠告訴你未來？用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

這是本學期我在政大圖檔所專題討論課程中介紹的內容，主題是「用Weka實作多變項時間序列預測」。傳統的時間序列分析(time series analysis)著重於以統計為主的ARIMA模型，分析過程著重於模型的選擇與判斷，一般僅以時間變項進行預測。Weka則是從資料探勘中迴歸(regression)的角度來實作時間序列預測(time series forecasting)，使用的預測演算法可以是線性迴歸(Linear Regression)、類神經網路預測(MultilayerPerceptron)、或支持向量機迴歸(SMOreg)，甚至可以加入疊加變項(overlay)，就能實作多變項的時間序列預測。

本文除了放上我在專題演講的投影片之外，也將使用Weka進行時間序列預測的做法整理出來，供大家一步一步操作、學習。

(more...)

AI解籤不用1秒，廟公要失業了嗎？Weka的中文自動評分：預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

布丁布丁吃布丁

9月 18, 2017 3 Comments Data Mining Software/GoogleDoc Software/Weka

AI解籤不用1秒，廟公要失業了嗎？Weka的中文自動評分：預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

人工智慧要為非結構性的文本型資料評分，要評到精準是很難，但如果只是簡單地給個評分的話，其實是非常簡單的事情，不需要寫任何程式碼。繼我之前寫的「Weka試跑文本評分」，這次我一樣直接使用Weka來為「雷雨詩籤百首」中的籤文與等第建模，做到Weka看到「一舟行貨好招邀積少成多自富饒常把他人比自己管須日後勝今朝」就知道是「上吉」。此外，還能透過特徵選取(select attributes)功能來篩選出影響等第的籤文關鍵字喔。

(more...)

從PHP的Fat-Free Framework框架來看用Node.js的Express框架開發網站的心得 / Fat-Free Framework in PHP vs. Express in Node.js: Pros and Cons of Node.js

布丁布丁吃布丁

9月 18, 2017 4 Comments Programing/PHP Programming/Node.js Programming/PHP

從PHP的Fat-Free Framework框架來看用Node.js的Express框架開發網站的心得 / Fat-Free Framework in PHP vs. Express in Node.js: Pros and Cons of Node.js

之前我跟學弟嘗試使用Node.js的Express框架來開發網站。本想著前端跟後端都可以統一使用JavaScript，但實際嘗試之後才發現Express框架問題頗多。這兩天為了把Zotero的資料庫寫成網站，我回頭使用PHP的Fat-Free Framework框架來開發，順手程度讓我感動到痛哭流涕，不禁想要寫一篇來整理一下Node.js的各種問題。這篇就閒聊一下吧。

(more...)

訂閱：文章 (Atom)

布丁布丁吃什麼？