:::

那個才是影響依變項最多的自變項?以SPSS實作解釋型多元迴歸 / Interpreting Multiple Regression Analysis in SPSS

image

在進行研究的時候,我們常常會想知道到底是什麼因素影響到依變項(例如社經地位、收入、學習成效)的多寡。為此,我們會收集很多種自變項,像是年齡、收入、打字速度、前測成績、認知風格、認知負荷、學習時間等多種變項資料,想要以此來分析到底是那些自變項對依變項影響程度較大。這時候我們可以採用多變項分析中的多元迴歸分析,以解釋型的多元迴歸分析來看各個自變項的影響程度。以下我僅整理邱皓政老師所著的「統計原理與分析技術:SPSS中文視窗版操作實務詳析」這本書中例子進行介紹,詳細多元迴歸原理請去找書來看吧。


分析資料 / Data

某學校老師班上有10位學生。在學期結束之後,他想要知道到底是什麼因素會影響學期總分。於是他蒐集這10位學生的其他5種資料,各別是「性別」(男生記1,女生記2)、「缺席次數」、「作業分析」、「期中考」、「期末考」,準備以這5種連續資料作為自變項,以連續資料的學期總分作為依變項,以此來作多元迴歸分析。

以下是這10位學生的資料:

學生編號 性別 缺席次數 作業分數 期中考 期末考 學期總分
1 1 2 80 78 84 80
2 1 1 85 80 83 82
3 2 0 90 90 89 89
4 1 0 85 90 90 95
5 2 5 75 70 78 70
6 1 2 80 88 89 87
7 1 1 80 82 87 85
8 2 1 75 74 84 82
9 2 0 80 65 78 80
10 1 1 85 85 80 84

SPSS版本 / SPSS Version

image

本例子使用的SPSS版本是SPSS 20版。因為我在SPSS 21上不能跑獨立樣本t檢定,所以又退回到20版來跑,真怪?


解釋型多元迴歸分析步驟 / Interpreting Multiple Regression Analysis Guide

image

在SPSS中把資料準備好,我們要開始跑多元迴歸分析囉。

1. 設定多元迴歸分析 / Multiple Regression Analysis Setup

image

首先先進入「分析」選單,選擇「迴歸」中的「線性」。

image

「依變項」選擇我們要分析的依變項「學期分數」。

「自變項」選擇我們要分析的自變項「性別」、「缺席次數」、「作業分數」、「期中考」與「期末考」,此處不選擇「學生編號」。

「方法」選擇「輸入」,也就是「強迫進入變數法」。

image

進入「統計量」。

image

勾選「估計值」、「模式適合度」、「共線性診斷」,按下「繼續」。

image

按下確定。

image

多元迴歸會跑出很多報表,以下我僅指出會需要觀看的資料。

2. 模型預測力檢定 / Predictive Power

image

在「Anova」報表中,看最後一欄「顯著性」:0.009。顯著性小於0.05表示達到顯著,這些自變項可以預測依變項。否則後面的分析沒有多大的意義。

image

在「模式摘要」報表中,我們看R平方或是調整後的R平方來看預測力百分比。如果樣本數量少、自變量多的話,我們看調整後的R平方:0.896,表示這些自變項可以解釋89.6%的依變項。

3. 自變項影響程度分析 / Standardized Beta Coefficients of Independent Variables

image

在「係數」報表中,我們可以看到各個自變項的分析結果,主要是看標準化係數Beta分配及顯著性這兩欄。Beta分配絕對值越大,表示該自變項對依變項影響越大。再對應到後面顯著性數值,顯著性低於0.05表示該Beta分配具有統計意義。

由此表可以看到,Beta分配絕對值最高的是「缺席次數」:-0.610,顯著性:0.022達到顯著,表示「缺席次數」對依變項「學期成績」的影響具統計意義;其次是「期中考」:0.574,顯著性:0.171,未達顯著,表示此Beta分配沒有統計意義。

4. 共線性診斷 / Multicollinearity Diagnostics

image

接著我們要看自變項之間是否有共線性的問題:也就是是否存在某些自變項是跟其他自變項資料分佈方向太過接近的問題。

來看「共線性診斷」報表的最後一列。從特徵值:0.000及條件指標:181.422來看整理模型的共線性程度。特徵值越小、條件指標越大,表示該模型共線性問題越嚴重。當條件指標低於30時,表示共線性問題緩和;30至100之間,表示該模型具有中度至高度的共線性;若條件指標高於100 以上,則表示該模型有嚴重的共線性 (Belsley, 1991; Belsley, Kuh & Welsch, 1980)。此例中條件指標有181.422,表示該模型有相當嚴重的共線性。

接下來看後面變異數比例中,數值明顯較高的自變項。排除常數之外,變異數比例超過0.5且明顯較高的是「期末考」:0.85、「期中考」:0.8、「作業分數」:0.76,表示這三個自變項之間有明顯的共線性。由此可以解釋自變項之間的關係。

必須說明的是,本文在此並沒有要解決該模型的共線性問題。共線性問題嚴重對於多元迴歸預測能力會有影響,一般採用刪去自變項的逐步迴歸方法或是萃取自變項特徵的偏差迴歸方法。但是在解釋型的多元迴歸中,因為我們的目的是分析所有自變項對於依變項的影響,模型的預測能力跟共線性問題並不影響我們的分析結果,所以不需作上述的處理。

5. 分析結論 / Conclusion

透過以上分析,我們可以知道自變項「性別」、「缺席次數」、「作業分析」、「期中考」與「期末考」對依變項「學期成績」的影響中,只有「缺席次數」的影響程度達到統計意義。而其他三個自變項「作業分析」、「期中考」與「期末考」之間有共線性關係,影響程度未達統計顯著。


參考資料 / Reference

封面

邱皓政(2005)。統計原理與分析技術:SPSS中文視窗版操作實務詳析。臺北市:雙葉書廊。(ISBN:978-986-7433-33-6)

本文的分析方法主要是參考邱老師這本書。該書有很紮實的統計理論介紹跟許多公式說明。

推論統計分析技術系統 / Types of  Inferential Statistical Analysis

我特別喜歡他對於推論統計的分類系統整理圖,不僅很有邏輯而且一目瞭然。我試著重繪後圖片如下:

基礎推論統計 的分類系統

綠色的節點是依變項的資料類型,分成「連續」與「類別」兩種。接著對應到藍色節點的自變項的類型,分成「無(沒有自變項)」、「類別」、「連續」跟「類別與連續混合」等四大類型,其中「類別」跟「連續」又分成「單變量」與「多變量」。最後再對應到分析技術。

如果你不知道手邊的資料應該要怎麼分析的話,不妨先根據自變項與依變項的資料類型,順著這張表找尋對應的分析方法吧。

迴歸分析與變異數分析 / Regression and ANOVA

本文在討論的是迴歸分析,這是社會科學統計分析中兩大門派的其中之一:蒐集很多變項來分析彼此之間關係的「迴歸分析」,具有代表性的分析方法是多元迴歸、邏輯迴歸、以及SEM、PLS-SEM。另一種分析門派是以實驗控制小心翼翼地以分組控制變項之間的差異,精準地挑選關鍵變項來進行分析的「變異數分析」。

這兩種分析方法要解決的問題不一樣、各有所長,實在有趣。邱老師在「統計原理與分析技術:SPSS中文視窗版操作實務詳析」該書結尾介紹了這兩大門派之間的鬥爭,很值得一看,推薦大家買來參考。


關於資料類型與分析方法 / Data Type and Analysis Method

眼尖的讀者應該會發現到,本文的多元迴歸處理的全部都是連續變項 (numeric variable)。即使是性別這種類別變項,也是轉換成虛擬變項(1=男性、2=女性)之後再來分析。這是因為多元迴歸分析就是以連續變項預測連續變項的分析方法,所以必須將資料全部轉換成連續資料再來處理。

如果依變項是類別變項(categorical variable或是nominal variable)這時候分析方法要採用區別分析(判別分析, discriminant analysis)邏輯迴歸(依變項是二元值,logistic regression)如果自變項是類別變項的話,統計做法大多建議是把它轉換成虛擬變項(dummy coding)再進行迴歸分析。虛擬變項的做法可以參考「迴歸分析使用虛擬變項的注意事項」一文。

不過,如果資料幾乎都是類別變項,比起統計上使用的對數線性模型或多重列聯表分析,我會比較建議採用資料探勘的分析方式。有兩種常見的可解釋性白箱分析技術可以用來看自變項對於依變項的關係,第一個是使用Entropy分析自變項影響能力的決策樹,第二個是以機率模型進行推理的貝氏網路。後者貝氏網路推理做法比較少人提及,但更容易解釋每個自變項的影響程度。有興趣的讀者可以看我之前推薦過的「王者歸來: WEKA機器學習與大數據聖經」一書。

分析結果的迷思 / Is the result reasonable?

有件事情必須要提出來講一下:有時候這種自變項影響程度的分析結果並不一定很合適。

在很多情況下,你預期的自變項在分析之後影響並不大,反而是不重要的變項影響變得很大。像是這個例子中,「缺席次數」是影響「學期成績」的關鍵,那意思是說其他的作業跟考試成績相對不重要嗎?這樣的結果可能會跟理論相左,反而會讓研究者難以解釋。附帶一提,這個問題在SEM類型的研究中同樣也很常見,另很多研究者頭痛不已呢。

因此,在使用解釋型多元迴歸分析時需要格外謹慎,不是跑出顯著性就可以說明一切,請小心地解釋自變項與依變項之間的關係吧。


小結 / In Closing

一開始摸多元迴歸,是因為有一位學弟跑來問我怎麼在論文上分析自變項影響程度的這種問題。一般研究所課堂上只會教到皮爾森積差相關分析,多元迴歸這種多變量分析大多只在統計系、應數系等跟統計比較相關的系所才有教。但是相關分析只能看各別自變項對依變項的相關程度,所以我推薦他改用多元迴歸來進行分析。最後分析結果也發現跟直接看相關分析有所不同,很有意思。對了,雖然我上面的介紹中沒有提到相關分析,但原本邱老師的書中是有相關分析這個步驟的喔。

有趣的是,像是這種用多個自變項來預測依變項的問題,在很多資料探勘或機器學習的研究中其實很常遇到。但作資料探勘或機器學習的研究者大多著重在模型的預測力,而不太在意到底是那個自變項的影響。如果你也是在做類似問題的研究的話,不妨也可以在研究分析的方法中,加入用解釋型多元迴歸來看看自變項影響程度的分析結果喔。

話說這一篇我寫了快五個小時啊…也太誇張了吧orz

總共20 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. 男=1
    女=2
    是否算是連續變項?

    回覆刪除
    回覆
    1. To steve,

      是不是連續變項,要看SPSS在「變數檢視」中的「測量」所決定
      https://lh3.googleusercontent.com/-vTs-CIW4Z5M/WyyxAGt6SzI/AAAAAAADwd4/GLFYnlggVmEGSOj2Z1ZK2irPXi1spIjZACHMYCw/s0/2018-06-22_16-18-45.png

      如果測量是「名義」那就是「類別變項」
      如果「尺度」或「次序」那就是「連續變項」

      如果你在SPSS中進行分析時,發現到選項中不能選擇某些變數
      那很可能是因為變數的「測量」,也就是資料形態不符合
      請在這裡修改後再進行分析吧

      刪除
  2. 請問您

    我使用羅吉斯迴歸跑分析,欲進行自變項影響程度分析
    但報表中僅出現b之估計值,似乎是未標準化係數
    倘若所有輸入變數都標準化,落在-1~1之間
    是否可透過b之估計值大小判斷自變數影響程度?

    回覆刪除
    回覆
    1. To Lucia,

      羅吉斯迴歸(Logistic迴歸)跟多元線性迴歸雖然都有「迴歸」,但兩者要預測的依變項不同,分析方法也不一樣。請不要參考這篇的作法。

      Logistic迴歸分析大多用於依變項為二元的情況,也就是只有「是」或「否」、「0」或「1」。如果依變項是三個以上的類別變項,則需要使用區別分析或多項式Logistic迴歸(multinomial logistic regression)。如果依變項是次序變項,例如社經地位的高、中、低時,則需要採用次序性Logistic迴歸(ordinal logistic regression)。

      不少統計書籍都有介紹Logistic迴歸的分析步驟。我手邊有的書籍中,陳正昌(2011)所著的「多變量分析方法:統計軟體應用」用SPSS 19來進行邏輯斯迴歸分析。裡面3.1.6 個別係數的考驗中,講到檢定自變項對於依變項影響的檢定有三種,其中最簡單的方式是採用Wald檢定,其H0假設為「該變數對預測沒有幫助」(石村貞夫, 2005)。

      http://4.bp.blogspot.com/-phzXX07o1JE/XOqb_-RoRBI/AAAAAAAEQSs/Wl0Q6jgaXIYYXmbc8IPO6ZkhHdmPYw4BgCK4BGAYYCw/s1600/2019-05-26_215826.png
      在Logistic迴歸分析輸出報表之一「變數在方程式中」作為例子來說明,這是以X1、X2、X3來預測依變項Y的Logistic迴歸分析,其中「顯著性」一欄為「Wals」(應該是Wald,我不確定我的SPSS20翻譯出了什麼問題)為「Wald統計量」,而後面的「顯著性」則是「Wald統計量」的顯著機率。在α為0.05的門檻下,X2與X3都對預測Y有顯著影響。

      再來看Exp(B)欄。X2的B (Beta係數)為0.538,對Y為正向影響。將其取指數 Exp(0.538) 可得到1.713。也就是X2增加一個單位,則Y的勝算比影響為1.713 - 1 = 0.713 (71.3%)。
      另一方面,X3的B為-0.449,對Y為負向影響。取指數後可得到0.638,則X3增加一個單位,對Y的勝算比影響為0.638 - 1 = -0.362 (-36.2%)。

      參考書目:
      陳正昌(2011)。多變量分析方法: 統計軟體應用。臺北市:五南。(ISBN:978-957-11-6378-9)
      石村貞夫(2005)。多變量分析的SPSS使用手冊(陳耀茂編)。臺北市:鼎茂圖書。(ISBN:978-986-122-363-6)

      刪除
    2. 感謝您詳盡的解說~
      您的回覆和參考書目對我幫助很大
      祝福您 一切順心

      刪除
  3. 請教您階層回歸分析,需要將依變項轉換成連續變項,那麼投入的因素呢?我指的是比如說投如一個滿意度,這個滿意度的總分也需要轉換成連續變項嗎?

    回覆刪除
    回覆
    1. 1.

      我對於階層迴歸分析並不熟,但我肯定這篇不是在談階層迴歸分析。
      如果要知道比較確切的做法,還是找本統計教科書來參考吧。

      2.

      滿意度如果是被當作一個因素,而它會反映在許多問項(item)上的話
      你看起來比較需要路徑分析(Path Analysis)

      3.

      滿意度的總分不就是連續變項嗎?

      變項基本上有4種資料類型:
      a. 名義變項 (nominal):不同水準(level)之間沒有大小、順序、等級的區隔
      b. 次序變項(ordinal):能分出大小,但差距不一定相同
      c. 等距變項(interval):具有零點,兩數值間的差距相同
      d. 等比變項(ratio):具有絕對零點,零點與數值、兩數值間的差距相同

      其中b c d又可稱為連續變項。

      滿意度這種Likert量表大多被視為次序變項或等距變項,也就是連續變項的一種。
      至於它要作為次序變項或等距變項,要視研究理論基礎和資料分析方法而定。

      刪除
  4. 謝謝您的簡單扼要說明,對寫分析結果幫助很大!

    回覆刪除
    回覆
    1. To Chloe D,

      感謝您抽空留言
      如果覺得不錯的話,請多支持邱皓政老師的著作喔。

      刪除
  5. 請問若為多類別的依變項,採用多元邏輯斯回歸,如何操作及判讀

    回覆刪除
    回覆
    1. 羅吉斯特迴歸的坊間統計教科書很多,網路上的教學也很多
      去找找看吧

      刪除
  6. 我看了很多文章,您的分享最棒

    回覆刪除
    回覆
    1. To 康普,

      啊,這讚賞有點誇張了喔。
      還是很感謝您。有幫到忙就好!

      刪除
  7. 想請問,若是要加入一個自變數、2個干擾變數和2個交叉相乘項下去跑二元logistic迴歸,跑出3個model,是否在第一層放入兩個平均過後的干擾變數,第二層放入自變數以及1個干擾變數和1個交叉相乘項,第三層再放入自變相以及另一個干擾變數與另一個交叉相乘項呢?

    回覆刪除
    回覆
    1. 您好,

      這種操作已經超出了我可以說明的程度囉。
      請另尋高明吧。

      刪除
  8. 1.虛擬變量編碼,主要是0、1。代表沒發生、有發生。
    2.如果編成1、2,成了順序變量。
    3.兩者意義不同。

    回覆刪除
    回覆
    1. To 統計人,

      結果好像是沒差的。
      請看分析: https://blog.pulipuli.info/2023/06/is-there-any-difference-between-setting-and-for-the-dummy-variable.html

      刪除
  9. 這篇寫得真清楚
    您的五小時幫助很多人節省了五小時
    由衷感謝!

    回覆刪除