巨量資料探勘與統計應用課程目錄 / Applications of Big Data and Statistics: Table of Contents
這是巨量資料探勘與統計應用課程的投影片「巨量資料探勘與統計應用課程目錄」,也包含了整個課程一開始的導論。本課程的主要核心技術是「資料分析」,而資料分析則含括了「資料探勘」與「統計」這兩種領域,並且適用於處理龐大的「巨量資料」,因此本課程就命名為「巨量資料探勘與統計應用」。為了整理到本blog,我將本系列課程調整為11個單元,由淺入深分成「課程導論與資料處理」、「資料敘述級」、「資料檢定級」、「資料預測級」四大階段,每個單元內都包含該單元要處理的問題與適用資料類型、核心技術。由於當初是以大學生為教學對象,因此本系列課程主要著重在訓練同學擁有實作的即戰力,每個單元都是以二到四個實作學習單組成,輔以少量的公式解說。
這份投影片是巨量資料探勘與統計應用課程的整體介紹,文章也會列出每一個單元的連結。最後我會談談我對這門課程的看法。
單元大綱 / Outline
- 為什麼要修這門課?
- 本學期課程概論
- 課程部分單元簡介
- 修課規定:作業與考試
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
單元目錄 / Units
巨量資料探勘與統計應用課程包含了「課程導論與資料處理」、「資料敘述級」、「資料檢定級」、「資料預測級」四大階段,每個階段都有一到四個單元,連結如下。
課程導論與資料處理 / Introduction
本階段包含了對這門課程的介紹,以及對於資料的認識。
- 巨量資料探勘與統計應用課程目錄:對於本系列課程的介紹
- 資料的來源與形態:認識非結構化資料與結構化資料、連續與類別形態資料的差別,並學習使用本課程主要使用的試算表工具:Google試算表。
資料敘述級 / Data Description
本階段為分析資料的第一步:畫圖看出資料的概況、找出資料的中心與離度、分群,以及應用規劃求解來找到問題的解答。
- 資訊視覺化:統計圖表:面對巨量資料的第一步,就是畫成統計圖表,以揭露整個資料的概況。
- 資料的中心與離度:如何用簡單的幾個代表性的指標數字來描述巨大且複雜的資料呢?這時候就是中心與離度派上用場的時候了。
- 資料聚類:分群:統計圖表看到的資料太大、中心與離度的少數代表性指標又太簡單,如果資料更加複雜的話,你就需要使用分群技術,將資料區隔成具有各自特色的少數分群,就能更容易看清楚整體資料的特徵。
- 最佳化問題:規劃求解:怎樣的圖書採購才能滿足讀者的最大需求?怎樣的生產組合才能達到最大利益?如果你要的是在多種方案中找出最佳解答,你需要的就是規劃求解。
資料檢定級 / Statistical Inference
本階段為推論統計的各種檢定,適用於在不同資料之間進行比較。如果你想知道的問題包含了「是否有差異」、「是否有相關」、「是否明顯比較多」的情況,那你就需要藉助推論統計的技術了。
- 資料檢定級導論: 從數學到統計:統計到底是什麼?為什麼我們需要統計?這一單元為此階段的導論。
- 連續變項的差異檢定:獨立樣本t檢定:A跟B之間的平均數是否有差異?我們需要用獨立樣本t檢定來檢查看看。裡面還有健力士啤酒的小故事喔!
- 連續變項的相關檢定:皮爾森積差相關分析:兩個連續類型的資料之間是否有共線性的相關呢?是不是X變多、Y也會跟著變多呢?你需要的就是用相關分析來檢查看看囉!
- 類別變項的相關檢定:卡方獨立性檢定:在輔大聖誕樹下告白就會成功嗎?吃了某種藥物之後就會康復嗎?學校錄取學生是否有性別歧視?想證實這些問題,你需要的是卡方檢定!
- 行為順序檢定:滯後序列分析:想知道分析使用者的行為模式嗎?什麼行為轉變的組合多到值得令人關注呢?你需要的就是滯後序列分析。
資料預測級 / Prediction
本階段為使用資料探勘的分類技術來進行建模與預測,包含了使用貝氏網路的結果預測與原因推理,以及自動文本分類的實作。因為每個單元的操作細節與內容較多,雖然僅有兩個單元,但卻需要用三週的長度來教授。
- 資料預測級導論:分類的處理流程:我們能用資料敘述來看到資料概況、用資料檢定來對不同資料進行比較,接下來就要對未知資料所可能的結果進行預測,這就是資料預測級。
- 分類與預測:貝氏網路:醫生怎麽用性別跟吸菸習慣來診斷看診者是否有生病?或是反過來說,造成一位病患得病的原因可能是什麼?使用貝氏網路建構的預測模型可以解答這個問題。實作教學:貝氏網路的結果預測與原因推理:基於專家知識建構的網路結構。
- 非結構化資料分析:文本分類:不僅人可以讀文章,機器也能夠閱讀文章,並將文章分門別類,這就是處理非結構化資料的文本分類技術。不僅如此,機器還能對文章評分,請見:AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第
以上的所有單元,就是我在巨量資料探勘與統計應用課程中的介紹了。
對於資料分析教育的看法 / How to learn Data Analysis?
資料分析是什麼?是這系列課程所說的資料敘述、資料檢定與資料預測嗎?老實說,這堂課只是入門基礎,若要達到商業使用的水準,那還有些要努力的空間。舉例來說,現在資料預測方法最熱門的是深度學習,而不是這系列課程所講的貝氏網路。資料檢定做到最後也是流行使用路徑分析 (結構方程式SEM),而不是基本的相關分析。
儘管如此,我得說,如果連資料敘述、資料檢定與資料預測的這些基本能力都不會的話,那可說是連資料分析的大門都還沒進入。請先把這系列課程學完,再來學進階的技術吧。
研究與資料分析技術 / Research and analytic technology
雖然巨量資料探勘與統計應用這門課是設計給大學進修部學生(是的,你沒看錯,就是進修部)修課,但幾乎每個單元的技術,都可以成為一篇碩士論文的核心技術:
- 蒐集了大量學生資料,要怎麼描述這些學生?請使用資料聚類:分群。
- 實驗組跟控制組的成績誰高誰低?請使用連續變項的差異檢定:獨立樣本t檢定。
- 專注度的高低跟期末成績是否有相關?請使用連續變項的相關檢定:皮爾森積差相關分析。
- 如何將客訴抱怨自動分類,以加快處理的效率?請使用非結構化資料分析:文本分類。
諸如此類的例子實在是不勝列舉。在準備這堂課的過程中,我也指導實驗室的學弟妹使用類別變項的相關檢定:卡方獨立性檢定跟行為順序檢定:滯後序列分析來分析他們所蒐集的資料,藉此發掘出表面所無法觀察到的結果,令人十分驚豔。
資料分析的即戰力 / Capability in Data Anlysis
資料分析是一門實際應用的技術,比起懂得背後的原理,我更想要強調「能夠使用這門技術」的能力,也就是即戰力。
要做到這件事情,並不容易。資料分析技術相當廣泛,而且非常複雜。大部分的課程礙於授課環境缺乏了電腦工具的輔助,教師只能帶領學生用紙筆與計算機來分析。我大學的時候也是如此,當時只記得為了算一個標準差就花了好多時間,完全不知道自己是為何計算。
因此,我偏好將資料分析的技術細節不斷簡化,希望讓同學聚焦於要處理的問題與資料的類型,並能夠解釋分析出來的結果。而這也是拿到真實社會中、處理實際碰到問題時,可能會採取的做法。你總不能到了公司還在用紙筆計算標準差吧,老闆看了都要搖頭了。
當然,現在也有許多相關課程採用這種上法。統計就是教SPSS,資料探勘就是教SQL Server跟SSAS (對,你沒看錯,SQL Server的賣點就在於他的資料探勘(資料採礦)功能,千萬別以為他只是單純的關聯式資料庫RMDB這麼簡單)。這些工具固然很強大,但老實說,這些工具也只有在課堂上才能使用。當你離開了課堂、離開了學校,很多人幾乎不會為了算個皮爾森積差相關分析,而花5萬元去買SPSS,而是直接將之前所學束之高閣,當做不存在一樣。
這也是為什麼我選擇以開放原始碼的Weka、免費的Google試算表,以及自行開發的大量的計算器作為授課工具的主要原因。我希望同學不僅只是學到資料分析工具的用法,甚至在未來也能夠繼續用它來解決工作上的問題,成為一個具有即戰力的資料分析師。
過於工具導向? / Overemphasization on tools?
但這樣過於強調工具的教學方式,也會有很多人有意見。
「那理論呢?這些工具背後的理論呢?」
抱歉,因為這堂課是設計給大學生的課程,所以我並沒有很仔細地做公式講解和推導,而是把重點放在如何使用上。我認為,一旦學生會使用這些資料分析技術,真的覺得它很好用了,學生就會自然很好奇他背後的原理。
當學生要跟老闆解釋或是要考試的時候,再回來看看投影片,記一下公式的內容,我想這樣就很足夠了。對於公式的邏輯推導、演算法的深入探究,這些事情都比較適合在研究所中跟理論打交道的時候再來面對。對於大學生來說,能夠將所學應用於工作之中,我覺得就非常足夠了。
這就是資料分析課程嗎? / Is it enough for data analysis?
雖然巨量資料探勘與統計應用到此為止,不過老實說,我覺得這並不算是一門好的資料分析課程。這是為什麼呢?
第一點就是我個人的能力不足。從我的學歷來看,不好意思,我既不是統計科系出身、也不具資工背景,完全就是從圖書資訊學系一路念上來,高中還是讀文組。這就構成了我對於公式講解能力的先天不足。為了釐清每一個單元中所使用的公式與演算法,我著實花了不少時間準備。即使同學上課的時候並不會在意的小細節,像是「數學跟統計有什麼不同」,我也要搞懂它們之間的差異。投注大量心力備課之後,雖然在臺上講給同學聽是沒有問題,但是要做到「講得非常好」、「打到學生的心坎裡」,那就有待繼續努力了。
第二點是講給這個blog的讀者看的。如果你想問我是否能從這篇目錄與這幾篇單元的投影片與學習單來學習資料分析,我會很遺憾地跟你說,可能很難。因為我備課時對象明確,我知道我在跟擁有什麼知識程度的學生講話,所以我是為了他們來準備課程。至於讀者你是誰,我並不清楚,所以很難就這個固定課程來讓你學到真正需要的知識。
另一方面,我將課程內容擺在這個blog的形式,其實比較接近於課程內容的數位典藏,而非真的是以開課的形式來陳述。這些投影片都只是為了我講課之便而準備,有些投影片有值得慢慢看的內容,但也參雜了蠻多我講課時需要的串場跟概念解說。這系列課程的投影片其實並不是為了閱讀而設計,覺得很難讀、不知所云,這是很正常的事情。
第三點就是評鑑學習成效的這件事情。因為我比較偏重實作能力,所以考試跟作業都不要求同學背公式,甚至是Open book考試。在很多人眼裡,這樣子的學習成效評鑑把關並不嚴謹。跟一般統計課期末考當一半不同,這堂課期末考滿分的同學,可是一隻手都數不完。不過儘管如此,還是有同學沒能跟上進度,個人表示遺憾。
因此,我其實不是很指望真的有人能看了這幾個投影片就能掌握資料分析,也希望讀者不要對此抱有太大的期望,以免失望落空。
結語 / Conclusion
在教課的這段時間,發生了許多事情。
開課前聽助教說,我這堂課名字內有「統計」,嚇跑了所有學生。第一週介紹課程的時候也只來了6人,遠不及開課人數15人。沒想到第一週課講到最後,選課人數竟然暴增為25人,出乎我的意料之外。
授課過程中,有看到從來沒在課堂上出現的同學,在期末考試質疑我的考題跟課程內容錯誤,但實際上是同學完全誤解了考題,我也不好意思在考試中點醒。有看到同學的學習單彼此互抄,抄到連名字都沒改的程度。還有同學非常在意公式的細節,在意到後面的內容都聽不下去,我只能好心勸他到研究所再來深究。
不過也有看到前面給堂課還在狀況外的同學,後面幾堂課靠自己看就做完了所有學習單,這叫還在臺上講課的我如何混時數呢(誤)?還有同學學完之後,能夠對課程內容應用舉一反三,我也覺得非常驚豔。
這林林總總下來,教完這堂課之後,我最大的感想是……
畢業論文都沒寫orz
……是的,這堂課裡面許多大四的同學,現在應該都已經畢業並找到工作了。我還在……寫blog……
這件事情非常尷尬。我的個性就是一次只做一件事情,所以我幾乎所有時間都花在備課上。這個投注的時間跟精力,每位教課老師聽了都只能搖頭。直到現在,還是有老師講到我去教課這件事情,就不斷嘆氣連連。我也無話可說,把心思花在算時薪的兼任教師工作上,卻不拿來研究畢業論文,任誰看了都會搖頭。
因此在課程最後,我也跟同學坦白說:「我只教這一學期,讓你們好畢業,之後不教了,寫論文去啦。」許多同學紛紛表示,沒能讓學弟妹也來上這門課,實在很可惜。我想說好吧,那我就把它整理到blog上來,成了這一系列的文章。
之後大家再有資料分析的問題,我就可以說:
「這個問題,去看我的blog!」
這樣就簡單多了,也省得我再講一次,可喜可賀。
巨量資料探勘與統計應用課程到這裡為止算是告一段落了。之後還有一些基於這個課程的進階應用,像是「分群與分類的整合應用:無監督分類器」這樣子的做法,我有空的話就會整理上來供大家參考。
我很想知道你對於本系列課程所講述的資料分析、資料探勘、統計與巨量資料等概念有什麼看法,這跟你所知道的資料分析又什麼不同呢?邀請您在下面留言處與我分享你的看法,或是在AddThis分享工具按讚、分享我的文章到Facebook等社群媒體。感謝你的耐心閱讀,讓我們下次見囉。
看了介紹覺得好想修課喔~市面上統計書真的都好難懂QQ
回覆刪除本來只是在找列聯表的介紹找好久都沒有我想看的東西,找到老師這個blog覺得寫得真好,就一路看下來了XD
PPT超精緻的!謝謝您的分享。
感謝你的讚賞
刪除市面上的統計書大多都是為何配合某個工具教學,像是SPSS
通常比較少強調應用的部分
許多同學在找統計的書時都是用技術名詞來找統計方法,像是「列聯表」
但我覺得從問題來找統計方法是比較好的,像是「我的資料有兩組類別變項,這兩組變項有關係嗎?」
列聯表的分析請看這篇「類別變項的相關檢定:卡方獨立性檢定」
http://blog.pulipuli.info/2017/10/correlations-with-categorical-variables.html
有什麼問題可以在那篇下面留言發問喔