:::

資料檢定級導論: 從數學到統計 / Inferential Statistics: An Introduction

資料檢定級導論: 從數學到統計 / Inferential Statistics: An Introduction

image

這是巨量資料探勘與統計應用課程的投影片「資料檢定級導論: 從數學到統計」。本單元是屬於系列課程中的「資料檢定級」,是銜接「資料敘述級」之後下一個階段的導言課程。許多人學習統計時,都知道統計分成敘述統計(descriptive statistics)推論統計(inferential statistics),前者很好理解,但為何需要推論統計?而這兩者又跟高中以前學的數學有什麼不一樣呢?

要理解推論統計,必須要先理解母體模型的概念。我們手邊看到的資料,在推論統計的框架中,它僅僅只是眾多樣本中的一次抽樣。因此我們在比較不同的樣本群時,注重的不是樣本的層次,而是樣本背後代表的母體模型。樣本對應到母體模型所計算出的檢定統計量,以及此檢定統計量可能出現的機率,才是推論統計的思維。

老實說,這個概念很難懂。因此我試著用自己的方式來詮釋這套思維,並在之中強調「檢定統計量」的核心概念,希望能讓同學比較容易理解推論統計的運作方式。因為本篇只是導言,並沒有任何練習內容或測驗。

(more...)

最佳化問題:規劃求解 / Optimization Problem: Solver

最佳化問題:規劃求解 / Optimization Problem: Solver

image

這是巨量資料探勘與統計應用課程的投影片「最佳化問題:規劃求解」。本單元雖然被歸類系列課程中的「資料敘述級」,但其實它跟其他的資料分析方法有很大的不同:規劃求解會直接給你明確的答案。在本單元中,處理資料類型為「連續」類型。

「規劃求解」是屬於「最佳化問題」領域中的技術。雖然同樣是處理數字,但「最佳化問題」並非「統計」,而跟「資料探勘」領域比較相近。在大部分資料探勘的工具裡,要解決的問題比較明確、使用者較難以自行控制。而許多資料探勘介紹的基因演算法(Genetic Algorithm, GA)又是「最佳化問題」中的進階技術,一般使用者難以輕易上手。所以我這個單元介紹的是「最佳化問題」中比較基礎的「規劃求解」。

「工廠在有限的物料跟時間內,要選擇生產多少產品,才能賺到最多利潤?」或者是「圖書館有10萬元經費,不同讀者想看不同類型的書,要怎麼買才能在有限經費內滿足讀者需求?」像是這些問題,都可以用規劃求解來找出答案。本單元利用Google試算表Solver來實作規劃求解,學生不用自己動手算喔。這個單元包含了三個實作學習單,供同學邊看邊練習。

(more...)

AI能夠告訴你未來?用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

布丁布丁吃布丁

AI能夠告訴你未來?用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

image

這是本學期我在政大圖檔所專題討論課程中介紹的內容,主題是「用Weka實作多變項時間序列預測」。傳統的時間序列分析(time series analysis)著重於以統計為主的ARIMA模型,分析過程著重於模型的選擇與判斷,一般僅以時間變項進行預測。Weka則是從資料探勘中迴歸(regression)的角度來實作時間序列預測(time series forecasting),使用的預測演算法可以是線性迴歸(Linear Regression)、類神經網路預測(MultilayerPerceptron)、或支持向量機迴歸(SMOreg),甚至可以加入疊加變項(overlay),就能實作多變項的時間序列預測。

本文除了放上我在專題演講的投影片之外,也將使用Weka進行時間序列預測的做法整理出來,供大家一步一步操作、學習。

(more...)

AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

image

人工智慧要為非結構性的文本型資料評分,要評到精準是很難,但如果只是簡單地給個評分的話,其實是非常簡單的事情,不需要寫任何程式碼。繼我之前寫的「Weka試跑文本評分」,這次我一樣直接使用Weka來為「雷雨詩籤百首」中的籤文與等第建模,做到Weka看到「一舟行貨好招邀 積少成多自富饒 常把他人比自己 管須日後勝今朝」就知道是「上吉」。此外,還能透過特徵選取(select attributes)功能來篩選出影響等第的籤文關鍵字喔。

(more...)

從PHP的Fat-Free Framework框架來看用Node.js的Express框架開發網站的心得 / Fat-Free Framework in PHP vs. Express in Node.js: Pros and Cons of Node.js

從PHP的Fat-Free Framework框架來看用Node.js的Express框架開發網站的心得 / Fat-Free Framework in PHP vs. Express in Node.js: Pros and Cons of Node.js

image

之前我跟學弟嘗試使用Node.js的Express框架來開發網站。本想著前端跟後端都可以統一使用JavaScript,但實際嘗試之後才發現Express框架問題頗多。這兩天為了把Zotero的資料庫寫成網站,我回頭使用PHP的Fat-Free Framework框架來開發,順手程度讓我感動到痛哭流涕,不禁想要寫一篇來整理一下Node.js的各種問題。這篇就閒聊一下吧。

(more...)

社會網絡分析之隨機圖模型 / Social Network Analysis: Random Graph Models

社會網絡分析之隨機圖模型 / Social Network Analysis: Random Graph Models

image

這是介紹「PAJEK 蜘蛛: 社會網絡分析技術」這本書中的第13章「隨機圖模型」的投影片。這本書使用社會網絡分析工具「pajek 蜘蛛」來分析研究者所蒐集的實測社群本身可能符合或不符合那些隨機圖模型(random graph models)。書中介紹的隨機圖模型包括伯努利隨機圖模型(Bernoulli random graph model)、條件統一隨機圖模型 (Conditional uniform random graph models)、小世界模型 (small world model)與優先連接模型 (scale free model),它們有各自的假設背景、建構網絡的隨機過程以及展現出來結構特徵。本書以蒙特卡洛模擬(Monte Carlo simulation)來建構各個隨機圖模型的信賴區間,藉以判斷實測網路與這些隨機圖模型的異同。

(more...)

感謝大家支持,捐款功能上線囉! / New Feature: Donation

布丁布丁吃布丁

感謝大家支持,捐款功能上線囉! / New Feature: Donation

image

你覺得「布丁布丁吃什麼?」的文章對你有幫助嗎?現在本Blog使用綠界科技的實況主收款功能加入了贊助捐款的功能囉!您可以自由決定捐款金額,並可接受信用卡、網路ATM、ATM櫃員機、便利商店代碼付費等方式付款喔!

(more...)