:::

資料檢定級導論: 從數學到統計 / Inferential Statistics: An Introduction

image

這是巨量資料探勘與統計應用課程的投影片「資料檢定級導論: 從數學到統計」。本單元是屬於系列課程中的「資料檢定級」,是銜接「資料敘述級」之後下一個階段的導言課程。許多人學習統計時,都知道統計分成敘述統計(descriptive statistics)推論統計(inferential statistics),前者很好理解,但為何需要推論統計?而這兩者又跟高中以前學的數學有什麼不一樣呢?

要理解推論統計,必須要先理解母體模型的概念。我們手邊看到的資料,在推論統計的框架中,它僅僅只是眾多樣本中的一次抽樣。因此我們在比較不同的樣本群時,注重的不是樣本的層次,而是樣本背後代表的母體模型。樣本對應到母體模型所計算出的檢定統計量,以及此檢定統計量可能出現的機率,才是推論統計的思維。

老實說,這個概念很難懂。因此我試著用自己的方式來詮釋這套思維,並在之中強調「檢定統計量」的核心概念,希望能讓同學比較容易理解推論統計的運作方式。因為本篇只是導言,並沒有任何練習內容或測驗。


投影片 / Slide

我以Google簡報的檔案匯出成PPTX,再備份到以下位置:


小結 / In closing

本次的投影片其實是「W10 連續變項的差異檢定」單元的前面部分。但因為推論統計的概念會跟後面的其他單元有所關聯,如果埋沒在「W10 連續變項的差異檢定」的話,總覺得有點可惜。所以最後我還是決定獨立一篇來介紹「資料檢定級導論: 從數學到統計」。

但,如果是接受正統訓練的統計學家,應該會對我這篇的介紹感到非常的困惑,而且會從中挑出許多語病跟概念上的錯誤吧?為什麼我要冒著這種風險,用非正統的方式來介紹推論統計呢?原因只有一個:

16ypD0IzqMM16LskqqcxFumog6bibUSdRTKrElqrR-A222

因為我覺得許多課程跟書本對推論統計的介紹,都很難懂。

傳統教學方式中,大家介紹推論統計的做法都差不多,從機率、信賴區間、統計檢定量(z值、t值、f值、卡方統計量)、以及檢定統計量的p值查表等流程一路下來,都是用手跟計算機來計算。就我個人的經驗來看,整個流程下來,我不僅被這些制式且複雜的手算流程搞到昏頭轉向,最關鍵的是我還是完全不懂為什麼我要算這些東西。

image

客觀來看,以前在統計手算算老半天的計算過程,不外乎都是為了得到樣本統計量、檢定統計量及其機率值p值這三種關鍵的數值,這些數值才能協助我們判斷此檢定統計量是否是很常見 (虛無假設) 或是特別異常 (對立假設)。比起計算過程,樣本統計量、檢定統計量、機率值p值等推論統計的核心概念才是學習的重點。那些機械式的計算過程,其實應該可以利用電腦來計算才對。

那為什麼許多統計課程還是要用手算呢?就我目前的觀察,最有可能的原因就是:「統計修課的學生包含必修跟重修,人數太多了,沒有電腦教室能夠容納得下這麼多人,所以只好沒電腦,改用手算吧。」

30454b71564a4f4d3962

(圖片來源:9個讓你瞬間比別人高了一個逼格的表情包)

我寫到這裡,腦海裡都浮現出助教無奈的眼神了,各位同學就不要為難統計老師了吧。

所幸的是,我教課的時候修課人數不多(聽說一堆同學看到課名的「統計」就嚇跑了),所以我可以用電腦教室教課。而正在看Blog的您也應該具備可以用自己電腦來學習的能力,所以對你們來說都沒有問題。接下來的「資料檢定級」的各個單元,我會繼續仰賴電腦來進行資料分析喔。