如何分析偏好排序問卷? / How to Analyze Ranking Scale Results?
(圖片來源:ROPER)
對圖書館、系統開發與任何提供服務的相關研究來說,研究者會很想知道使用者到底注重或期待的是什麼功能。舉例來說,系統預計開發的六個功能中,請使用者由最期待到最不期待的順序依序排序;圖書館提供的七項服務中,請讀者由最重要到最不重要的順序依序排序。蒐集完這個資料之後,接下來要怎麼分析好呢?大部分的工具僅止於敘述統計,例如平均數計算或次數分配表。但其實應該進一步使用Friedman檢定與事後多重比較Bonferroni校正,或是列聯表分析,它們都能在排除隨機性之後找出更令人信服的結果順序。這篇以冰淇淋口味偏好兩種不同調查結果為例,說明排序問卷在SPSS中的分析方法。
排序問卷跟評分問卷的差別 / Ranking Questions VS. Rating Questions
(圖片來源:Curiosity at Work)
排序問卷(Rankinig scale)的題目大概會是如此設計:
以下有三種冰淇淋的口味,請依照喜歡程度,由高到低排序,排序第一個的項目為「你最喜歡」,最後一個為「你最不喜歡」。
- 香草口味冰淇淋
- 巧克力口味冰淇淋
- 草莓口味冰淇淋
相對的,評分問卷(rating question)就會這樣設計。評分問卷有很多種做法,以下是語義差異量表的例子:
以下有三種冰淇淋的口味,請依照喜歡程度,給題項後面的1分到10分的其中一個分數畫圈。10分表示「你最喜歡」,1分表示你最不喜歡。
- 香草口味冰淇淋:最不喜歡 1 2 3 4 5 6 7 8 9 10 最喜歡
- 巧克力口味冰淇淋:最不喜歡 1 2 3 4 5 6 7 8 9 10 最喜歡
- 草莓口味冰淇淋:最不喜歡 1 2 3 4 5 6 7 8 9 10 最喜歡
Verint INTOUCT的文章「RANKING QUESTIONS VS. RATING QUESTIONS」說明了排序問卷跟評分問卷之間的差別。
- 排序問卷(ranking question):要求受試者直接比較不同題項之間的高低。例如:請為以下題項由最重要到最不重要進行排序,排序在第一個的是表示您認為「最重要題項」,排序在最後一個的是您認為「最不重要」的題項。
- 評分問卷(rating question):要求受試者使用普通的量表來比較不同的題項。舉例來說:請為以下的題項給予1到10分的評分,1表示「最不重要」,而10表示「最重要」。
該篇文章比較了排序問卷跟評分問卷之間的差別,我整理在下面。詳細的比較,請見Alwin與Krosnick (1985)的分析:
Alwin, D. F., & Krosnick, J. A. (1985). The Measurement of Values in Surveys: A Comparison of Ratings and Rankings. Public Opinion Quarterly, 49(4), 535-552. doi:10.1086/268949
排序問卷的優缺點 / Ranking Questions' Pros & Crons
優點:
- 保證每一個題項都能夠擁有各自的權重,不會有題項之間彼此相同。
缺點:
- 忽略受試者可能覺得題項的重要度沒有差別,強迫他們一定要表現出差異。
- 受試者可能懶得為題項排序:清單中越早出現的題項,越有可能被排在越前面,即使是將清單以隨機表示也是一樣。
- 受試者可能懶得排序所有題項:依據題項是否完全被照實拿來排序,最後結果可能會大不相同。(布丁注:這句話我其實看不太懂,原文是「Return different results depending on the completeness of the list of items being ranked」。)
- 對可用的統計分析造成限制:因為這是排序類型,排序的位置不代表兩個題項之間的距離,因此不能用平均數分析。
- 受試者可能會對排序跟數字感到困惑。常見的評分問卷中,1表示最不重要。但在排序問卷中,位於1的題項卻是最重要的。
- 作答所需時間較長:根據Munson and McIntyre, 1979的研究,排序問卷可能會比評分問卷花上多達三倍的時間。
- 因為需要比較多個題項,帶給受試者的精神負擔較大。
- 當題項變多的時候,作答的困難度會大增。
評分問卷的優缺點 / Rating Questions' Pros & Crons
優點:
- 最常見、最容易使用,受試者容易理解與接受。
- 允許受試者將全部的題項評相同的權重,例如全部評為中間值或極端值。(布丁注:儘管很多研究不樂意見到這樣的結果,但這的確是受試者的一種選擇)
缺點:
- 評分結果的分佈通常很集中,最常會被落在偏高的評分。舉例來說,在重要度問卷裡面,大部分的題項都會被認為非常重要。
- 題項之間的差異不大,甚至受試者可能會將每個題項給予同樣的評分。
- 容易受到受試者的作答風格影響。例如有些比較保守的受試者永遠不會給題項最高分,即使他們認為這很重要。
- 因為受試者作答風格的差別,可能會產生出正相關的假象。
- 冗長的問卷會讓受試者感到不耐煩,最後只會給出滿足最低要求的填答結果:就是隨便填。
如何分析排序問卷? / How to analyze ranking scale results?
知名的線上問卷服務SurveyMonkey有提供排序問卷(Ranking Question)的服務,請見「Get Your Ranking On: We Show You How!」的說明。
(圖片來源:SurveyMonkey)
SurveyMonkey提供了簡單的結果分析,包括次數分配表,以及依照排序位置加權後的平均數比較結果。然而,就如前面提到排序問卷的缺點中提到的,拿平均數來比較順序尺度的排序問卷,這種分析方式並不合宜。
(圖片來源:Research Gate)
在研究人員的Facebook:Research Gate上也有人提出類似的問題。大部分人的建議都是採用無母數分析法Friedman檢定跟多重比較法Bonferroni校正 (Bonferroni correction)。
Friedman檢定是一種由Milton Friedman提出的無母數統計檢定法,類似於有母數重複測量檢定法ANOVA,但Friedman檢定更適合用於排序資料上。關於Firedman檢定的詳細介紹請看維基百科。SPSS有內建Friedman檢定,詳細請見Friedman Test in SPSS Statistics這篇的說明,或是Friedman's ANOVA in SPSS操作影片。
事後多重比較法Bonferroni校正則是一種比較保守的方法,各組樣本數量必須相同。關於Bonferroni校正的詳細介紹請看多重比較分析檢定。SPSS在單因子變異數的事後多重比較(Post hoc)中也有包含Bonferroni法,請見Bonferroni correction操作影片。
有些研究會同時使用ANOVA跟Friedman檢定,但若其中一個方法結果會出現顯著的話,另一個方法會出現顯著,例如Fong等人(2012)的「Evaluation of combined prescription of rocker sole shoes and custom-made foot orthoses for the treatment of plantar fasciitis」。有些研究會把Friedman跟Wilcoxon符號檢定兩種一起處理,例如Vico等人(2000)的「Effects of long-term microgravity exposure on cancellous and cortical weight-bearing bones of cosmonauts」。
找了老半天,終於找到一篇是真的用排序問卷,以Firedman檢定跟Bonferroni校正多重比較的論文:
Hailu, G., Boecker, A., Henson, S., & Cranfield, J. (2009). Consumer valuation of functional foods and nutraceuticals in Canada. A conjoint study using probiotics. Appetite, 52(2), 257-265. doi:10.1016/j.appet.2008.10.002
雖然該研究中的排序資料以兩層的方式進行調查,比較複雜些。但看到的確有研究這樣分析,總是讓人覺得心裡踏實些。
此外,如果將偏好排序退化成類別變項,我想也許可以試著用卡方獨立性檢定的細格檢定來分析看看。但找了一下,並沒有找到有研究會這樣做。我也不是很確定這樣做到底好還是不好,總之先做個記錄吧。
那接下來,我們就試著來分析排序資料看看。
SurveyMonkey的分析結果 / Analysis in SurveyMonkey
在SurveyMonkey中已經內建一個簡單的敘述統計分析功能,主要是它下面的次數分配表。在這張表格中,橫列表示三種不同的冰淇淋口味:香草冰淇淋(Vanilla ice cream)、巧克力冰淇淋(Chocolate ice cream)以及草莓冰淇淋(Strawberry ice cream)。直欄表示排序的位置,排名在1的位置表示最喜歡,3表示最不喜歡。而橫列與直欄交叉的細格則是此口味選擇此排名的人數,例如選擇香草冰淇淋、並將之排名在第1位的人,總共有14位,佔全體51位受試者的27.45%。
後面欄位「總計」是受試者的人數,最後一個欄位「分數」是該項的加權平均數。排序資料的加權算法比較複雜,做法如下:
- 排序位置越低,權重越高。如果總共有3個題項需要排序,則排名為1的題項,被賦予3分;排名為2的題項,被賦予2分;排名最後的3,則是被賦予1分。
- 將選擇此排序位置的人數與題項的加權分數相乘,再將結果加起來,除以受試者人數,就得到加權平均分數。
- 以香草冰淇淋來說,選擇排名1 (加權3分)的人數有14人、選擇排名2(加權2分)的人數有19人、選擇排名3 (加權1分)的人數有18人,總共51位受試者,加權平均分數則為:[ (3*14)+(2*19)+(1*18) ] / 51 = 1.92
SurveyMonkey將加權平均分數繪製為橫向的直方圖,可以看到草莓口味的分數比其他兩種口味還要高,可見顧客最喜歡的是草莓口味。
然而,這樣的結果並沒有排除隨機發生的可能性。換句話說,每種口味之間的分數差異都很小,這些很可能是受試者隨便亂填就出現的結果。我們需要進一步地使用推論統計來檢定看看。
例子1:明顯偏好的冰淇淋口味調查 / Example 1: Inconsistent ice cream flavor survey
本文一開始先不用SurveyMonkey的例子。我試著調整問卷結果,讓受試者口味偏好更偏向草莓冰淇淋一些,這樣比較容易看出分析結果。以下就讓我們看看這怎麽分析吧。
資料集與格式 / Data set and format
Friedman檢定用資料 / For Friedman test
下載後取得「ice_cream_flavor_ranking_survey_1_friedman_test - data.csv」檔案。這個檔案有三個變數,個別代表每位受試者為三種口味選擇排序的加權分數。3分表示排序在第一個,2分表示排序在第二個,1分表示排序在最後一個。這是為了給Friedman檢定使用的資料格式。
ANOVA用資料 / For ANOVA
下載後取得「ice_cream_flavor_ranking_survey_1_anova - data.csv」檔案。此資料有兩個變項,flavor表示冰淇淋口味,1為香草冰淇淋、2為巧克力冰淇淋、3為草莓冰淇淋。第二個變項是排序的加權分數。3表示排序在第一位、2表示排序在第二位、1表示排序在最後一位。
這份資料的內容跟前面的「ice_cream_flavor_ranking_survey_1_friedman_test - data.csv」完全相同,只是為了SPSS分析時所需格式的不同,我們需要準備兩種不同的資料檔案。
以下的操作都在SPSS 20版內進行,不同版本中選單的位置可能會不太一樣喔。
敘述統計 / Descriptives
敘述統計的資料包含在Friedman檢定中,因此我們直接進行Friedman分析,就能看到敘述統計的結果。
開啟CSV檔案 / Open CSV file
我們用開啟檔案的方式,把文字檔案的CSV格式檔案「ice_cream_flavor_ranking_survey_1_friedman_test - data.csv」載入SPSS。做法請參考「開啟CSV檔案」。
分析設定 / Analyse setting
選擇「分析 > 無母數檢定 > 歷史對話記錄 > K個相關樣本」。
將所有變數移動到「檢定變數」,然後在「檢定類型」勾選「Friedman檢定」。
按下「統計量」,進入「統計量」的設定。
勾選「描述性統計量」,按下「繼續」退出。
按下「確定」。
SPSS出現分析結果。讓我們仔細來看看這些報表吧。
結果分析 / Results
在「描述性統計量」表格中,可以看到每個題項的加權平均數及其標準差。草莓冰淇淋的加權平均數為2.37最高,其次是巧克力冰淇淋的1.9,最後是香草冰淇淋的1.73。
各組之間平均數的差異差不多接近標準差,例如草莓冰淇淋跟香草冰淇淋的平均數相差0.64,而它們各自的標準差也都在0.77左右,可以推測這兩組之間應該會出現顯著差異。
Friedman檢定 / Friedman Test
接著繼續看SPSS分析結果中,Friedman檢定的檢定統計量。卡方統計量為11.412,漸近顯著性為0.003,遠低於顯著水準0.05,表示這三種冰淇淋口味的排序的確有很大的差異。
那麼下一個問題是,雖然我們從敘述統計可以看到草莓冰淇淋的加權平均數最高,但是我們仍需要經過事後多重比較,才能檢定那些冰淇淋口味之間有明顯的差異。
事後多重比較:Bonferroni法 / Post hoc: Bonferroni correction
為了要進行多重比較,我們需要載入另一種格式的資料。請準備好「ice_cream_flavor_ranking_survey_1_anova - data.csv」,進行以下操作吧。
開啟CSV檔案 / Open CSV file
這次我們開啟的是「ice_cream_flavor_ranking_survey_1_anova - data.csv」,格式跟前面不一樣喔。
分析設定 / Analyzing setting
事後多重比較的功能在單因子變異數功能中。我建議使用「分析 > 一般線性模式 > 單變量」功能。
我們將依變數設為「weighted_score」,固定因子設為「flavor」。
特別注意的是,在事後多重比較設定這邊要勾選的是「Bonferroni法」,如上圖所示。詳細請參考「多組資料的平均數是否有差異?SPSS的單因子變異數分析」這篇的做法操作。
接著就會看到SPSS出現的報表。
結果解讀 / Results
在「受試者間效應項的檢定」中,flavor的F值為9.448,顯著性為0.000,小於0.05顯著水準。意思是用ANOVA來進行分析的時候,也顯示出各組之間的平均值有顯著差異的結果。
再來看到「多重比較」的表格,從有打「*」星號顯著性符號的列可以看到,flavor=1 (香草冰淇淋)明顯小於flavor=3 (草莓冰淇淋)、flavor=2 (巧克力冰淇淋)也明顯小於flavor=3 (草莓冰淇淋),最後兩個就是flavor=3 (草莓冰淇淋)明顯大於flavor=1 (香草冰淇淋)跟flavor=2 (巧克力冰淇淋)。也就是說,草莓冰淇淋的偏好排序明顯優先於香草冰淇淋跟巧克力冰淇淋。
卡方獨立性檢定 / Chi-square test of independence
最後我們用卡方獨立性檢定來分析看看。卡方檢定統計量為18.706,p值為0.001,達到0.05顯著水準,表示行變項的不同的確會影響列變項。這邊的卡方檢定統計量跟Friedman檢定的結果不一樣,但一樣達到顯著。
在細格統計檢定分析中可以看到,flavor=1 (香草冰淇淋)中加權分數1 (也就是被排序在第三位)的次數顯著的多、加權分數3 (排序在第一位)的次數顯著的少。另一方面,flavor=3 (草莓冰淇淋)中加權分數3 (也就是被排序在第一位)的次數顯著的多、加權分數1 (排序在第三位)的次數顯著的少。巧克力冰淇淋則沒有明顯的偏好。
從這裡可以看得出來,這群顧客真的很喜歡草莓冰淇淋,而且明顯地不喜歡香草冰淇淋啊。
例子2:普通的冰淇淋口味調查 / Example 2: Normal ice cream flavor survey
(圖片來源:SurveyMonkey)
接下來,我們再回頭使用SurveyMonkey提供的冰淇淋偏好口味調查例子來進行分析看看。
資料集 / Data set
Friedman檢定用資料 / For Friedman test
ANOVA用資料 / For ANOVA
以下操作都跟上面一樣,那我們就只看結果即可。
敘述統計 / Descriptives
從「描述性統計量」中看到「平均數」一欄,這表示各變項的排序平均值,這個結果就跟SurveyMonkey計算的分數一樣。把「平均數」跟「標準差」相比,可以看出各組平均數的差異並沒有接近或大於標準差,可以預想各組之間不會出現顯著差異。
Friedman檢定 / Friedman Test
看到下面Friedman檢定的「檢定統計量」,可以看到卡方統計量為1.451,漸近顯著性為0.484,大於顯著水準0.05,因此我們不能拒絕虛無假設,只能認為每一種口味的偏好並沒有明顯的差異。由此可見,前面敘述統計認為顧客可能偏好草莓口味的結果,只能認為是隨機情況下就會發生,並不值得我們注意。
事後多重比較:Bonferroni法 / Post hoc: Bonferroni correction
ANOVA分析中,flavor的F值為1.082,顯著性為0.341,大於顯著水準0.05。表示各組之間的平均數沒有顯著差異。
使用Bonferrorni法進行多重比較的結果,各組之間也沒有顯著的差異。
卡方獨立性檢定 / Chi-square test of independence
卡方獨立性檢定的分析結果也未達顯著差異,每個細格都沒有明顯較多或較少的情況發生。
透過以上分析可以發現到,如果草莓冰淇淋是顧客最喜歡口味的這個結論,很有可能只是隨機發生,並沒有統計上的意義,也就是不值得我們去注意。
小結 / In closing
許多系統所提供的分析工具大多只做到敘述統計中的資料中心(均值)與資訊視覺化,少部分才有計算離度(標準差),但幾乎很少看到提供推論統計檢定的功能。
這是為什麼呢?除了推論統計本身的計算量較大,一般系統並不具備此等技術之外,要檢定方法的選用也往往充滿爭議,不易掌握。但我想最重要的一點,那就是檢定結果可能大多時候都未達顯著。
社會科學研究常用的顯著水準0.05是一個很嚴苛的門檻,雖然跟上帝粒子研究的0.0000002相比已經鬆很多了,但在一般的情況下,其實還是很難達到這個門檻。隨意調查路人他們的冰淇淋偏好口味排序,通常很難看出顯著差異,就是這個意思。
若要達到統計上的顯著差異,通常需要在調查前就已經有很明確的理論基礎。例如在東方國家調查麵包與米飯等主食的偏好,那可預期的是選擇米飯的人應該會顯著的多。另外一種做法就是透過實驗控制來產生有明顯理論基礎的情況,例如安排不同教學方式的實驗組與控制組,使得兩組學生大量受到教學方式的影響,因而產生明確的偏好。
換句話說,光是只有推論統計的分析工具,恐怕是沒有什麼意義。厚實的理論基礎、謹慎的實驗控制與仔細的推論統計分析,才能得到令人信服的結果。
那如果沒有什麼理論基礎的情況呢?請選擇先使用探索性分析方法,例如HotSpot關聯規則分析,再來逐步建構起你的理論基礎。勉強用推論統計來計算顯著性,結果往往會令人洩氣呢。
本篇對於如何分析偏好排序問卷的討論就到這邊為止囉。你是否也煩惱過怎麽分析排序問卷呢?如果用上述的Friedman檢定跟Bonferroni法來分析之後,又會得到什麼結果呢?你對於推論統計追求顯著性這點,有什麼看法呢?歡迎在下面的留言處與我分享你的想法,或是在AddThis分享工具上按讚、分享到Facebook等社群媒體吧。感謝你的耐心閱讀,讓我們下次再見囉!
關於【事後多重比較:Bonferroni法 / Post hoc: Bonferroni correction】把ranking data放進ANOVA是不是有問題呀? 不是因為是RANKING DATA 不能跑ANOVA所以才做FRIEDMAN TEST嗎? 我以為應該跑Wilcoxon sign rank
回覆刪除To 普普,
刪除我覺得你說的沒錯。
我在這篇文章中以Firedman跟Bonferroni進行分析的做法是參考Hailu等人(2009)的論文。一般來說Bonferroni多重比較是用於有母數比較法,比較各組之間的平均數有無顯著差異。但因爲我這篇的開頭就是在講問卷不適合用平均數比較,所以後面接著Bonferroni多重比較,也就相形奇怪。
https://www.researchgate.net/post/Which_statistical_analysis_tool_to_use_ranked_data
這串討論中Ayyamperumal Ragupathy也認爲One way anova與其事後多重比較不太適合,應使用無母數的統計方法。
普普提到了使用Wilcoxon sign rank。
https://www.wikiwand.com/en/Wilcoxon_signed-rank_test
一般來說Wilcoxon符號檢定是用於成對樣本(相依樣本)的差異檢定,例如比較同一批人的前測與後測之間的差異。
無母數多組獨立樣本的比較統計方法中,常用於排序資料的是Kruskal-Wallis test。
詳情請看我另一篇「多組非常態分佈資料之差異檢定與事後比較:R的Kruskal–Wallis檢定與Welch's anova」的說明:
https://blog.pulipuli.info/2018/01/rkruskalwalliswelchs-anova-non.html