資料的中心與離度 / Measures of Center and Spread
這是巨量資料探勘與統計應用課程的投影片「資料的中心與離度」。本單元是屬於系列課程中的「資料敘述級」,處理資料類型主要是「連續」類,但也其中的眾數也可以描述「類別」類型。
這個單元講述的是各位同學國中就學過的均值跟離度的算法,包括平均數、中位數、眾數、最大值、最小值、四分位數、變異數與標準差。這次我們的重點不在於計算,而是要瞭解均值跟離度如何有效地用於描述資料。跟以前大多著重在公式跟按計算機不同,現在我們就用Google試算表的函式計算均值跟離度即可。本單元包括了五個實作學習單,供同學邊看邊練習。
單元大綱 / Outline
- 資料的中心:均值
- 實作:均值的計算
- 資料的離度:分散性
- 實作:五數綜合的計算
- 實作:五數綜合的繪圖
- 資料的離度:變動性
- 實作:變異數與標準差的計算
- 練習:不同年齡對網路郵局的滿意度
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
學習單 / Worksheets
本單元包含了以下的學習單,請搭配課程投影片一起練習吧。
資料集 / Dataset
本單元用到了以下資料:
- 汽車銷售記錄:修改自「統計學: R-Web分析導論 : 生活中的統計應用14篇」書中的內容
- 104年度不同年齡民眾對於網路郵局滿意度:修改自政府資料開放平臺中民眾對交通部施政措施滿意度調查。
- 臺灣社會變遷調查:修改自「多變量分析方法: 統計軟體應用」書中的練習。
線上操作平臺 / Online Workplace
本單元的實作不需用到本機端的軟體,全部使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:
測驗 / Examine
本單元最後提供了一份測驗,供同學驗證所學:(這個測驗是跟W04的單元一起的喔)
小結 / In closing
本單元的課程設計雖然也是獨立一章,但跟前一個單元「資訊視覺化:統計圖表」是滿有關係的,兩者也都有大量操作Google試算表的地方。不少同學也覺得這個單元頗為實用,算是基礎的練習。
平均數、變異數、標準差等計算,即使在國中數學課就已經學過這個概念,但實際上這些數字到了研究所做統計分析的時候還是常常出現,基礎才是最重要的啊。
很多同學很喜歡這個笑話:老王死了,因為他不懂統計。這個笑話跟圖片來自「統計學的世界」一書,這本書是我看過介紹統計最有趣的一本書。比起教導如何計算,作者Moore跟Notz更強調的是讓讀者思考。雖然他不是實際上用來解決問題的工具書,但是可以休閒時間讀讀的科普好書喔。