連續變項的相關檢定:皮爾森積差相關分析 / Bivariate Correlation Analysis: Pearson Correlation Coefficient
這是巨量資料探勘與統計應用課程的投影片「連續變項的相關檢定:皮爾森積差相關分析」。本單元是屬於系列課程中的「資料檢定級」的第二個單元,處理資料類型是分析兩兩「連續」資料之間的關係。本單元將會教同學推論統計另外一個很常見的分析技術:皮爾森積差相關分析,它可以用來檢測兩個連續變項之間的相關程度與相關的方向。本單元使用我撰寫的皮爾森積差相關分析計算器,並不需要同學用手算。這個單元包含了二個實作學習單跟一份測驗,供同學邊看邊練習。
單元大綱 / Outline
- 談資料蒐集方法
- 相關檢定:積差相關分析
- 實作:積差相關分析
- 發現相關之後
- 課堂練習:葡萄酒與心臟病有關嗎?
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
結論寫作框架 / Result Framework
請參考以下結論框架,將底線的文字改為合適的內容,完成皮爾森積差相關分析的結論吧。
研究目的 | ||||||
本研究使用積差相關分析來分析(檢定變項1)、(檢定變項2)與(檢定變項3)兩兩變項之間是否有線性相關。 | ||||||
樣本敘述統計量 | ||||||
(每一個檢定變項重複描述) (檢定變項)的平均數為(平均數),標準差為(標準差),樣本數為(樣本數)。 | ||||||
相關分析 | ||||||
|
舉例來說,像是:
研究目的 | ||||||
本研究使用積差相關分析來分析數理能力、美術能力與比賽總成績兩兩變項之間是否有線性相關。 | ||||||
樣本敘述統計量 | ||||||
數理能力的平均數為65.100,標準差為18.873,樣本數為60份。 美術能力的平均數為70.100,標準差為12.233,樣本數為60份。 比賽總成績的平均數為54.100,標準差為16.103,樣本數為60份。 | ||||||
相關分析 | ||||||
|
學習單 / Worksheets
本單元包含了以下的學習單,請搭配課程投影片一起練習吧。
測驗 / Examine
本單元也包含了一份測驗,供同學驗證所學:
資料集 / Dataset
本單元用到了以下資料:
- 科學競賽活動參賽者資料:修改自邱皓政的著作「統計原理與分析技術:SPSS中文視窗版操作實務詳析」中的例子。
- 葡萄酒與心臟病統計資料:修改自Moore與Notz的著作「統計學的世界」中的例子。
- 游泳時間與脈搏:修改自Moore與Notz的著作「統計學的世界」中的例子。
線上操作平臺 / Online Workplace
本單元的實作不需用到本機端的軟體,全部使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:
皮爾森積差相關分析計算器 / Pearson Correlation Coefficient Calculator
這個單元大多都在講推論統計,有許多同學都表示看不太懂這跟大數據之間的關係。所以我為了這個皮爾森積差相關分析計算器加上了「人工智慧模式」,只要上傳CSV檔案(例如這個科學競賽參賽者資料),就會自動以結論寫作框架產生文字報告。再按下客服小姐底下的語音按鈕,就會出現利用ResponsiveVoice.JS呼叫的谷歌小姐來念出報告內容。
授課時同學似乎對此蠻感到訝異,原來統計也可以這樣跟大數據結合。但我比較訝異的是,原來只要把文字顯示轉換成語音輸出,大家就覺得這是未來大數據應有的樣貌。這樣說來,現在大家致力研究於語音輸入的技術 (Google與Mozilla正在展開一場競賽:比誰收集的人類語音數據多),其實也只是提換文字輸入的類似概念。當然,語音辨識成文字的難度高上許多就是了。
小結 / In closing
相關分析算是推論統計的一個基礎技術,較複雜的研究大多會做迴歸預測或是路徑分析,這些進階的統計技術也是基於相關分析的做法來延伸。相較於研究上的使用,在資料分析領域中倒是蠻常看得到相關分析的蹤影。
(圖片來源:R資料採礦與數據分析:以GUI套件Rattle結合程式語言實作)
上圖是多個變項中兩兩計算相關係數的相關矩陣。藍色表示正相關(X愈多、Y也越多)、紅色表示負相關(X越多、Y反而越少),顏色越深表示相關係數越高。矩陣中間的格子是相關係數乘上100後取絕對值。100表示完全相關,顏色非常深,格子後面的模擬散佈圖也可以看到相關的方向。
儘管這樣子華麗的彩色圖表是難以用在黑白的學術論文上,但是在許多儀表板、探索性分析領域裡面,用相關分析來快速找出變數與變數之間的關聯是一項非常受歡迎的技術。
不過光有圖表,不會說明也沒用。所以我這篇還是有結論寫作框架,希望同學能藉由框架的協助,將分析結果以文字好好表達。
相關分析技術 / Methods of correlation analysis
藉這個機會,我也在這裡談一下相關分析的各種方法。許多學過基本推論統計的同學大概只會知道皮爾森積差相關分析,但事實上,根據資料類型的不同,相關分析的做法也有很多種類型。以下表格是整理自王文科、王智弘所著的「教育研究法」在相關研究法一章中所整理的表格:
第一個變項 | 第二個變項 | 技術 | 備註 |
連續變項 | 連續變項 | 積差相關(皮爾森相關) Product-move-ment Correlation (r) | 最穩定的技術,即標準誤最小。 |
等級變項 | 等級變項 | 等級相關 Rank-difference Correlation (rho, ⍴) | 當案例數量在10~30時經常取代積差相關。 1. 小樣本的時候使用 2. 問卷用李特克N等選項做出來的,通常都是等級變項,而不是連續變項 |
等級變項 | 連續變項 | 肯氏相關 Kendall's Tau (taf, τ) | 案例數量在10以下時,以此代替等級相關。 |
人為二分變項 (場地獨立/相依) | 連續變項 | 二系列相關 Biserial Correlation (rbis) | 有時候超過1 (比r的標準誤大),通常在項目分析時採用。 |
廣布人為二分變項 | 連續變項 | 廣布二系列相關 Widespread biserial Correlation (rwbis) | 當研究者對於「二分變項位於極端的人」特別感興趣時使用之。 |
真正二分變項 (題目答對/答錯) | 連續變項 | 點二系列相關 (rpbis) | 得到的相關比rbis低 |
人為二分變項 | 人為二分變項 | 四分相關 Tetrachoric Correlation (r1) | 當兩個變項可在臨界點分割時使用之。 |
真正二分變項 | 真正二分變項 | Phi相關 Phi Coefficient (ɸ) | 用於計算項目間相關。 |
兩個或更多類別變項 (實驗組/控制組1/控制組2) | 兩個或更多類別變項 | 列聯相關 (卡方檢定) Contingency Coefficient (C) | 在若干條件下 (與卡方密切相關) 可與四分相關比較。 |
連續變項 | 連續變項 | 相關比 Correlation ration (eta, ) | 用以分析非直線相關。 |
下一個單元我會介紹上面提到的兩個類別變項之間的相關檢定:卡方獨立性檢定,其他的相關分析方法的細節就請詳閱「教育研究法」的內容囉。
你對本單元的相關分析有什麼看法呢?不管是第一次聽到這個名詞,還是已經有學過相關分析的同學,我很想知道大家的想法!歡迎在下面留言,或是用左邊的AddThis按個讚或分享喔!
我把皮爾森積差相關分析計算器做成PWA了
回覆刪除https://pulipulichen.github.io/HTML5-Pearson-Correlation-Analysis-Calculator/
現在逐步把各個常用工具都PWA化~