連續變項的差異檢定:獨立樣本t檢定 / Testing Differences Between Means: Independent t-test
這是巨量資料探勘與統計應用課程的投影片「連續變項的差異檢定:獨立樣本t檢定」。本單元是屬於系列課程中的「資料檢定級」的第一個單元,處理資料類型是從「類別」分類的「連續」資料。本單元主要教的是推論統計最常見的分析技術:獨立樣本t檢定,可以用來檢測兩組不同樣本的平均值是否有顯著差異。t檢定是由健力士的統計學家William Sealy Gosset博士發表的經典分析方法。在喝健力士啤酒的時候,可別忘了統計的t檢定喔。本單元使用了R-Web跟我撰寫的獨立樣本t檢定計算器,並不需要同學用手算。這個單元包含了二個實作學習單,供同學邊看邊練習。
單元大綱 / Outline
- 談資料蒐集方法
- 學生t檢定之獨立樣本t檢定
- 實作:獨立樣本t檢定 南北民眾的上網時間是否有所差異呢?
- 課堂練習:教育程度會影響服務滿意度嗎?
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
結論寫作框架 / Result Framework
請參考以下結論框架,將底線的文字改為合適的內容,完成獨立樣本t檢定的結論吧。
研究目的 | ||||
本研究使用獨立樣本t檢定來比較(檢定樣本1)與(檢定樣本2)的(變項)平均數是否有所差異。 | ||||
樣本敘述統計量 | ||||
(檢定樣本1)抽樣(樣本1的樣本數),(變項)平均數為(樣本1的平均數);(檢定樣本2)抽樣(樣本2的樣本數),(變項)平均數為(樣本2的平均數)。 | ||||
變異數同質性檢定 | ||||
在變異數同質性檢定中,檢定統計量f值 = (F檢定統計量),p值 = (p-值),(檢定結果: 未達/小於) α = 0.05的顯著水準。
| ||||
獨立樣本t檢定 | ||||
在獨立樣本t檢定中,檢定統計量t值 = (t檢定統計量),p值 = (p-值),(檢定結果: 未達/小於)顯著水準α=0.05。
|
舉例來說,像是:
研究目的 | ||
本研究使用獨立樣本t檢定來比較北部民眾與南部民眾的上網時間平均數是否有所差異。 | ||
樣本敘述統計量 | ||
北部民眾抽樣10位,上網時間平均數為266.2分鐘;南部民眾抽樣9位,上網時間平均數為219.78分鐘。 | ||
變異數同質性檢定 | ||
在變異數同質性檢定中,檢定統計量f值 = 0.4127,p值 = 0.20931,未達α=0.05的顯著水準。
| ||
獨立樣本t檢定 | ||
在獨立樣本t檢定中,檢定統計量t值 = 4.0079,p值 = 0.001,達到α=0.05的顯著水準。
|
學習單 / Worksheets
本單元包含了以下的學習單,請搭配課程投影片一起練習吧。
測驗 / Examine
本單元整理了一份測驗,供同學驗證所學:
資料集 / Dataset
本單元用到了以下資料:
- 南北民眾上網時間調查:修改自梁德馨、蘇志雄、王智立(2014)所著的「統計學: R-Web分析導論 : 生活中的統計應用14篇」書中的範例。
- 教育程度與服務滿意度調查:我不太確定資料來源,不過這個範例我也調整了資料內容,因此可以算是我另外建立的內容吧。
- 新竹市公共圖書館每月書籍借閱量:修改自政府資料開放平臺的新竹市公共圖書館每月書籍借閱量。
線上操作平臺 / Online Workplace
以上的實作不需用到本機端的軟體,全部使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:
t檢定計算器 / t-test calculator
小結 / In closing
這次獨立樣本t檢定的教學,我只有簡單地展示了獨立樣本t檢定在計算樣本統計量、變異數同質或不同值的檢定統計量計算公式,但這些手算的工作不是本單元強調的重點,而是改為教導學生如何使用R-Web或獨立樣本t檢定計算器等工具來求得獨立樣本t檢定的結果。最重要的是,最後還要將獨立樣本t檢定的結果以文字報告的方式來陳述,就像是寫成論文一樣,才能讓別人看得懂統計結果。
這件事情一直讓我感到糾結。許多統計課程大多著重在運算過程與得到結果,但是卻比較少人在談如何將計算結果以文字表達,也就是寫成會出現在論文中的文字報告。當然,統計書籍的範例還是會有對結果的文字陳述,但是在不同的情況下,像是有達到或未達顯著,報告的寫法應該是不太一樣。許多學生學過SPSS就認為懂得統計,但是要請他們將結果報告、陳述的時候,卻往往只會放張表格,然後叫大家看看數字就結束,實在不是很理想。這讓我很想強調以文字報告陳述統計結果的重要性。
因此,這次「資料檢定級」單元中的各種推論統計技術,都會有不同的結論寫作框架,提供同學撰寫結論時的一個格式參考。在獨立樣本t檢定計算器中,甚至也會直接用這套結論寫作框架來產生結果報表,還搭配ResponsiveVoice.js的語音功能,讓Google小姐直接唸給你聽。當然,這個框架僅供參考,請同學在熟悉這個寫作框架之後,再將統計結果跟整體報告作更緊密的結合,這會讓你的報告更加專業。不過即使什麼都不懂,也請先以結論寫作框架來撰寫報告,由這裡開始吧。
整體而言,比起繁瑣的計算過程,我比較想強調的是何時使用獨立樣本t檢定、如何將計算結果寫成報告這兩塊。這跟傳統的推論統計教學有很大的差異,我想應該會讓很多受正統統計訓練的人感到奇怪吧。
變異數同質性檢定 / Evaluate homogeneity of variances
值得一提的是,獨立樣本t檢定會受到兩組樣本它們的變異數是否同質的影響,而有不同的計算公式。為了判斷兩組樣本的變異數是否同質,又得要進行變異數同質性檢定。變異數同質性檢定中,SPSS使用的是Levene檢定,R-Web使用的是f檢定。這兩者雖然同為變異數檢定,但前者適用於任意分佈的資料,後者較適合用於常態分佈的資料上。
這個小細節可能很多人學過統計還是不瞭解,趁這機會來跟大家說明一下也是不錯的。
R-Web無法上傳檔案的問題 / A uploading problem in R-Web
題外話,也許有人發現到本單元使用了兩種工具來計算獨立樣本t檢定:R-Web跟獨立樣本t檢定計算器。前者是公開的雲端服務,後者是我自己撰寫的HTML小工具。在課程規劃上,資料檢定級的所有計算工具,我本來都打算只使用R-Web進行。但在該週授課的時候,不知道為什麼,在輔大網路裡面中,R-Web就是不能上傳資料。這讓我整個授課講到一半卡住,非常尷尬。事後詢問輔大的網路相關單位,卻完全找不出任何原因。離開輔大可以正常使用R-Web,包括在政大使用的學術網路、在家裡使用的中華電信都可以。但是在輔大裡面,就是不能使用R-Web。
獨立樣本t檢定計算器的開發 / Why I develop independ t-test calculator
不能用R-Web讓我整個焦慮不已,後面的課程這下可怎辦才好。這下讓我發奮開發後續各種以HTML5實作的線上統計計算器。獨立樣本t檢定計算器雖然是這一系列文章最先提到的計算器,但其實下一篇的皮爾森積差相關計算器才是我那時候做的第一個統計計算器,獨立樣本t檢定計算器反而是後面課程做完之後回頭做的最後一個。
在獨立樣本t檢定計算器,使用者只要上傳CSV資料,選擇要檢定的兩個變數,計算器就會自動繪製箱型圖以及陳述結果。結果也跟SPSS (變異數同質性檢定使用Levene's test)、R-Web (變異數同質性檢定使用F檢定)交互確認,一切正常。
我以前講過用R-Web來作獨立樣本t檢定、用Google試算表來做獨立樣本t檢定,但現在,請直接用獨立樣本t檢定計算器來算獨立樣本t檢定就好,連開SPSS都不需要了。
有網友來信詢問「獨立樣本t檢定計算器」中Levene's Test變異數檢定的計算細節。
回覆刪除「獨立樣本t檢定計算器」的程式碼都存放在HTML5-t-test-calculator中
網址是:https://github.com/pulipulichen/HTML5-t-test-calculator
Levene's Test表格的產生程式碼在這個位置:
https://github.com/pulipulichen/HTML5-t-test-calculator/blob/master/t-test.js#L200
這裡面用到了Luke Mitchell發表的LEVENE_TEST函式庫
https://github.com/pulipulichen/HTML5-t-test-calculator/blob/master/levene-test/levene.js
有興趣的同學可以鑽研程式的計算方式。
程式裡面用的計算方式,需要回去查看統計公式
https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/PASS/Levene_Test_of_Variances-Simulation.pdf