:::

那個才是影響依變項最多的自變項?以SPSS實作解釋型多元迴歸 / Interpreting Multiple Regression Analysis in SPSS

image

在進行研究的時候,我們常常會想知道到底是什麼因素影響到依變項(例如社經地位、收入、學習成效)的多寡。為此,我們會收集很多種自變項,像是年齡、收入、打字速度、前測成績、認知風格、認知負荷、學習時間等多種變項資料,想要以此來分析到底是那些自變項對依變項影響程度較大。這時候我們可以採用多變項分析中的多元迴歸分析,以解釋型的多元迴歸分析來看各個自變項的影響程度。以下我僅整理邱皓政老師所著的「統計原理與分析技術:SPSS中文視窗版操作實務詳析」這本書中例子進行介紹,詳細多元迴歸原理請去找書來看吧。




分析資料 / Data

某學校老師班上有10位學生。在學期結束之後,他想要知道到底是什麼因素會影響學期總分。於是他蒐集這10位學生的其他5種資料,各別是「性別」(男生記1,女生記2)、「缺席次數」、「作業分析」、「期中考」、「期末考」,準備以這5種連續資料作為自變項,以連續資料的學期總分作為依變項,以此來作多元迴歸分析。

以下是這10位學生的資料:

COPY
POPUP
學生編號 性別 缺席次數 作業分數 期中考 期末考 學期總分
1 1 2 80 78 84 80
2 1 1 85 80 83 82
3 2 0 90 90 89 89
4 1 0 85 90 90 95
5 2 5 75 70 78 70
6 1 2 80 88 89 87
7 1 1 80 82 87 85
8 2 1 75 74 84 82
9 2 0 80 65 78 80
10 1 1 85 85 80 84

SPSS版本 / SPSS Version

image

本例子使用的SPSS版本是SPSS 20版。因為我在SPSS 21上不能跑獨立樣本t檢定,所以又退回到20版來跑,真怪?


解釋型多元迴歸分析步驟 / Interpreting Multiple Regression Analysis Guide

image

在SPSS中把資料準備好,我們要開始跑多元迴歸分析囉。

1. 設定多元迴歸分析 / Multiple Regression Analysis Setup

image

首先先進入「分析」選單,選擇「迴歸」中的「線性」。

image

「依變項」選擇我們要分析的依變項「學期分數」。

「自變項」選擇我們要分析的自變項「性別」、「缺席次數」、「作業分數」、「期中考」與「期末考」,此處不選擇「學生編號」。

「方法」選擇「輸入」,也就是「強迫進入變數法」。

image

進入「統計量」。

image

勾選「估計值」、「模式適合度」、「共線性診斷」,按下「繼續」。

image

按下確定。

image

多元迴歸會跑出很多報表,以下我僅指出會需要觀看的資料。

2. 模型預測力檢定 / Predictive Power

image

在「Anova」報表中,看最後一欄「顯著性」:0.009。顯著性小於0.05表示達到顯著,這些自變項可以預測依變項。否則後面的分析沒有多大的意義。

image

在「模式摘要」報表中,我們看R平方或是調整後的R平方來看預測力百分比。如果樣本數量少、自變量多的話,我們看調整後的R平方:0.896,表示這些自變項可以解釋89.6%的依變項。

3. 自變項影響程度分析 / Standardized Beta Coefficients of Independent Variables

image

在「係數」報表中,我們可以看到各個自變項的分析結果,主要是看標準化係數Beta分配及顯著性這兩欄。Beta分配絕對值越大,表示該自變項對依變項影響越大。再對應到後面顯著性數值,顯著性低於0.05表示該Beta分配具有統計意義。

由此表可以看到,Beta分配絕對值最高的是「缺席次數」:-0.610,顯著性:0.022達到顯著,表示「缺席次數」對依變項「學期成績」的影響具統計意義;其次是「期中考」:0.574,顯著性:0.171,未達顯著,表示此Beta分配沒有統計意義。

4. 共線性診斷 / Multicollinearity Diagnostics

image

接著我們要看自變項之間是否有共線性的問題:也就是是否存在某些自變項是跟其他自變項資料分佈方向太過接近的問題。

來看「共線性診斷」報表的最後一列。從特徵值:0.000及條件指標:181.422來看整理模型的共線性程度。特徵值越小、條件指標越大,表示該模型共線性問題越嚴重。當條件指標低於30時,表示共線性問題緩和;30至100之間,表示該模型具有中度至高度的共線性;若條件指標高於100 以上,則表示該模型有嚴重的共線性 (Belsley, 1991; Belsley, Kuh & Welsch, 1980)。此例中條件指標有181.422,表示該模型有相當嚴重的共線性。

接下來看後面變異數比例中,數值明顯較高的自變項。排除常數之外,變異數比例超過0.5且明顯較高的是「期末考」:0.85、「期中考」:0.8、「作業分數」:0.76,表示這三個自變項之間有明顯的共線性。由此可以解釋自變項之間的關係。

必須說明的是,本文在此並沒有要解決該模型的共線性問題。共線性問題嚴重對於多元迴歸預測能力會有影響,一般採用刪去自變項的逐步迴歸方法或是萃取自變項特徵的偏差迴歸方法。但是在解釋型的多元迴歸中,因為我們的目的是分析所有自變項對於依變項的影響,模型的預測能力跟共線性問題並不影響我們的分析結果,所以不需作上述的處理。

5. 分析結論 / Conclusion

透過以上分析,我們可以知道自變項「性別」、「缺席次數」、「作業分析」、「期中考」與「期末考」對依變項「學期成績」的影響中,只有「缺席次數」的影響程度達到統計意義。而其他三個自變項「作業分析」、「期中考」與「期末考」之間有共線性關係,影響程度未達統計顯著。


參考資料 / Reference

封面

邱皓政(2005)。統計原理與分析技術:SPSS中文視窗版操作實務詳析。臺北市:雙葉書廊。(ISBN:978-986-7433-33-6)

本文的分析方法主要是參考邱老師這本書。該書有很紮實的統計理論介紹跟許多公式說明。

推論統計分析技術系統 / Types of  Inferential Statistical Analysis

我特別喜歡他對於推論統計的分類系統整理圖,不僅很有邏輯而且一目瞭然。我試著重繪後圖片如下:

基礎推論統計 的分類系統

綠色的節點是依變項的資料類型,分成「連續」與「類別」兩種。接著對應到藍色節點的自變項的類型,分成「無(沒有自變項)」、「類別」、「連續」跟「類別與連續混合」等四大類型,其中「類別」跟「連續」又分成「單變量」與「多變量」。最後再對應到分析技術。

如果你不知道手邊的資料應該要怎麼分析的話,不妨先根據自變項與依變項的資料類型,順著這張表找尋對應的分析方法吧。

迴歸分析與變異數分析 / Regression and ANOVA

本文在討論的是迴歸分析,這是社會科學統計分析中兩大門派的其中之一:蒐集很多變項來分析彼此之間關係的「迴歸分析」,具有代表性的分析方法是多元迴歸、邏輯迴歸、以及SEM、PLS-SEM。另一種分析門派是以實驗控制小心翼翼地以分組控制變項之間的差異,精準地挑選關鍵變項來進行分析的「變異數分析」。

這兩種分析方法要解決的問題不一樣、各有所長,實在有趣。邱老師在「統計原理與分析技術:SPSS中文視窗版操作實務詳析」該書結尾介紹了這兩大門派之間的鬥爭,很值得一看,推薦大家買來參考。


關於資料類型與分析方法 / Data Type and Analysis Method

眼尖的讀者應該會發現到,本文的多元迴歸處理的全部都是連續變項 (numeric variable)。即使是性別這種類別變項,也是轉換成虛擬變項(1=男性、2=女性)之後再來分析。這是因為多元迴歸分析就是以連續變項預測連續變項的分析方法,所以必須將資料全部轉換成連續資料再來處理。

如果依變項是類別變項(categorical variable或是nominal variable)這時候分析方法要採用區別分析(判別分析, discriminant analysis)邏輯迴歸(依變項是二元值,logistic regression)如果自變項是類別變項的話,統計做法大多建議是把它轉換成虛擬變項(dummy coding)再進行迴歸分析。虛擬變項的做法可以參考「迴歸分析使用虛擬變項的注意事項」一文。

不過,如果資料幾乎都是類別變項,比起統計上使用的對數線性模型或多重列聯表分析,我會比較建議採用資料探勘的分析方式。有兩種常見的可解釋性白箱分析技術可以用來看自變項對於依變項的關係,第一個是使用Entropy分析自變項影響能力的決策樹,第二個是以機率模型進行推理的貝氏網路。後者貝氏網路推理做法比較少人提及,但更容易解釋每個自變項的影響程度。有興趣的讀者可以看我之前推薦過的「王者歸來: WEKA機器學習與大數據聖經」一書。

分析結果的迷思 / Is the result reasonable?

有件事情必須要提出來講一下:有時候這種自變項影響程度的分析結果並不一定很合適。

在很多情況下,你預期的自變項在分析之後影響並不大,反而是不重要的變項影響變得很大。像是這個例子中,「缺席次數」是影響「學期成績」的關鍵,那意思是說其他的作業跟考試成績相對不重要嗎?這樣的結果可能會跟理論相左,反而會讓研究者難以解釋。附帶一提,這個問題在SEM類型的研究中同樣也很常見,另很多研究者頭痛不已呢。

因此,在使用解釋型多元迴歸分析時需要格外謹慎,不是跑出顯著性就可以說明一切,請小心地解釋自變項與依變項之間的關係吧。


小結 / In Closing

一開始摸多元迴歸,是因為有一位學弟跑來問我怎麼在論文上分析自變項影響程度的這種問題。一般研究所課堂上只會教到皮爾森積差相關分析,多元迴歸這種多變量分析大多只在統計系、應數系等跟統計比較相關的系所才有教。但是相關分析只能看各別自變項對依變項的相關程度,所以我推薦他改用多元迴歸來進行分析。最後分析結果也發現跟直接看相關分析有所不同,很有意思。對了,雖然我上面的介紹中沒有提到相關分析,但原本邱老師的書中是有相關分析這個步驟的喔。

有趣的是,像是這種用多個自變項來預測依變項的問題,在很多資料探勘或機器學習的研究中其實很常遇到。但作資料探勘或機器學習的研究者大多著重在模型的預測力,而不太在意到底是那個自變項的影響。如果你也是在做類似問題的研究的話,不妨也可以在研究分析的方法中,加入用解釋型多元迴歸來看看自變項影響程度的分析結果喔。

話說這一篇我寫了快五個小時啊…也太誇張了吧orz

總共20 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. 回覆刪除
    回覆
    1. 回覆刪除
  2. 回覆刪除
    回覆
    1. 回覆刪除
    2. 回覆刪除
  3. 回覆刪除
    回覆
    1. 回覆刪除
  4. 回覆刪除
    回覆
    1. 回覆刪除
  5. 回覆刪除
    回覆
    1. 回覆刪除
  6. 回覆刪除
    回覆
    1. 回覆刪除
  7. 回覆刪除
    回覆
    1. 回覆刪除
  8. 回覆刪除
  9. 回覆刪除