:::

資料的中心與離度 / Measures of Center and Spread

image

這是巨量資料探勘與統計應用課程的投影片「資料的中心與離度」。本單元是屬於系列課程中的「資料敘述級」,處理資料類型主要是「連續」類,但也其中的眾數也可以描述「類別」類型。

這個單元講述的是各位同學國中就學過的均值跟離度的算法,包括平均數、中位數、眾數、最大值、最小值、四分位數、變異數與標準差。這次我們的重點不在於計算,而是要瞭解均值跟離度如何有效地用於描述資料。跟以前大多著重在公式跟按計算機不同,現在我們就用Google試算表的函式計算均值跟離度即可。本單元包括了五個實作學習單,供同學邊看邊練習。


單元大綱 / Outline

  1. 資料的中心:均值
  2. 實作:均值的計算
  3. 資料的離度:分散性
  4. 實作:五數綜合的計算
  5. 實作:五數綜合的繪圖
  6. 資料的離度:變動性
  7. 實作:變異數與標準差的計算
  8. 練習:不同年齡對網路郵局的滿意度

投影片 / Slide

我以Google簡報的檔案匯出成PPTX,再備份到以下位置:

學習單 / Worksheets

2017-03-21_134428

本單元包含了以下的學習單,請搭配課程投影片一起練習吧。

資料集 / Dataset

image

本單元用到了以下資料:

線上操作平臺 / Online Workplace

google_driveAlecive-Flatwoken-Apps-Google-Drive-Formslogo1

本單元的實作不需用到本機端的軟體,全部使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:

測驗 / Examine

2017-09-02_214436

本單元最後提供了一份測驗,供同學驗證所學:(這個測驗是跟W04的單元一起的喔)


小結 / In closing

本單元的課程設計雖然也是獨立一章,但跟前一個單元「資訊視覺化:統計圖表」是滿有關係的,兩者也都有大量操作Google試算表的地方。不少同學也覺得這個單元頗為實用,算是基礎的練習。

image

平均數、變異數、標準差等計算,即使在國中數學課就已經學過這個概念,但實際上這些數字到了研究所做統計分析的時候還是常常出現,基礎才是最重要的啊。

image

很多同學很喜歡這個笑話:老王死了,因為他不懂統計。這個笑話跟圖片來自「統計學的世界」一書,這本書是我看過介紹統計最有趣的一本書。比起教導如何計算,作者Moore跟Notz更強調的是讓讀者思考。雖然他不是實際上用來解決問題的工具書,但是可以休閒時間讀讀的科普好書喔。