:::

編碼者間一致性信度:Cohen Kappa係數計算器 / Intercoder Reliability: Cohen's Kappa Coefficient Counter

intrater

我寫了一個線上計算Cohen Kappa係數的工具。本文簡單介紹編碼者間一致性信度與操作教學。


為什麼要算編碼者間的一致性信度? What’s Intercoder Relicability?

William M.K. Trochim這張圖傳神地描繪出編碼者間一致性的問題。兩位編碼者(coder),或著說是觀察者(observer) (註1),在分析與觀察同一件物品或現象時,兩個人的觀點可能會不太一樣。

註1:因為現在觀察大多是交給機器錄影或錄音,較無觀察偏見的問題。主要會受到人為影響的部分則是分析這些錄影與訪談的資料,而分析質性資料將之給與概念化標籤的方法稱之為「編碼」,進行編碼的研究者也就是「編碼者」。

如果兩人編碼結果相差很大,那表示研究者的分析方式不夠客觀、帶有嚴重偏頗。如果兩人編碼結果相同,那表示這是一個很穩定、具有足夠信度、可以重複使用的編碼方法。

因此現在的研究方法中會要求質性編碼要以兩位以上研究者來進行編碼,並利用統計來計算編碼者之間的一致性信度。

Cohen Kappa係數 / Cohen's Kappa Coefficient

image

依據資料類型的不同,一致性信度有很多種計算方式。在此介紹的是適用於名義尺度資料類型的Cohen Kappa係數計算方法。名義尺度的意思是資料編碼本身只是一個「代號」,代號與代號之間並沒有順序、間隔、比例的關係。Cohen Kappa係數只看有多少個編碼,兩個人之間的編碼相符的比例為何。由於Cohen Kappa排除了編碼者亂填的隨機性,因此比單純的相符百分比還來得可信。

Kappa係數介於-1 ~ 1之間。一般來說,能達到0.8以上是很棒的結果,但通常達到0.6~0.8就可以發表了。至於0.6以下,則是建議你們兩位編碼者再討論一下編碼方法,有更多共識之後再來重編一次吧。

Kappa係數

一致性程度

< 0.4

0.4 ~ 0.6

一般

0.6 ~ 0.8

> 0.8

極佳


計算器操作說明 / Counter Usage Guide

  1. 首先,在Google試算表或是Excel中,複製兩位編碼者的編碼結果。
    image
  2. 貼在「coding result」的表單欄位中。
    image
  3. 按下「Count Cohen’s Kappa Coefficient」之後,結果表格就會呈現在下方。紅字的部分就是Cohen Kappa係數了。 
    image

Cohen Kappa係數計算器 / Cohen's Kappa Coefficient Counter

總共49 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. 說明之後補上,但我得說一句話:Blogger的編輯器對JavaScript不友善的程度,快讓我抓狂了!
    一旦編輯,我的JavaScript全部就會被強制換版面。有沒有這麼痛苦!!
    Blogger編輯器請多多跟Windows Live Writer看齊好嗎?至少不要打壓人家可以嗎?orz

    回覆刪除
  2. 本頁短網址:http://j.mp/2015-kappa

    回覆刪除
  3. night worker...good job!!!

    回覆刪除
  4. To 4樓匿名,

    我覺得熬夜工作還是不太好,應該早睡早起才是orz

    回覆刪除
  5. 非常感謝大大寫了一個這方便的程式,但我希望把結果放置在我的論文裡,
    那我的文章中實驗軟體不知要怎麼表示比較好? 我知道大部分的人都是用spss來分析的!!

    回覆刪除
  6. To 7樓 一直在想你 ,

    請寫使用Cohen Kappa係數進行信度檢定即可,軟體不是重點。
    雖然SPSS可以跑統計,但是比較窮的話,其實Excel也可以跑關聯分析、T檢定,再沒錢的話也可以用LibreOffice Calc來跑統計,連軟體都不想裝的話還可以用雲端資料分析暨導引系統 ( http://www.r-web.com.tw/ )
    反正用的都是一樣的方法,跑下去結果都是一樣,應該在意的是方法而不是軟體本身。

    不過除非我寫錯啦,倒時候再給我提醒一下,感謝感謝orz

    回覆刪除
  7. 謝謝你整理得如此詳細,真是我的救星,甘溫啊!

    回覆刪除
  8. 補充一下相關文獻

    Cohen's Kappa是來自於Jacob Cohen (1960)的文章:
    Cohen, J. (1960). A coefficient of agreement for nominal scale. Educational and Psychological Measurement, 20(1), 37–46. doi:10.1177/001316446002000104

    然而,在一開始發表Kappa的計算方式的原文中,Cohen其實並沒有特別說明Kappa的程度
    許多文章都說Cohen認為Kappa係數要在多少多少以上才算可以接受,其實是錯誤的引用

    不過仍然有許多研究對Kappa係數的範圍有所界定,其中一篇就是Landia與Koch (1977)的文章:
    Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 159–174.

    該文章中界定Kappa統計量與對應的一致性程度如下:
    < 0.00 Poor
    0.00-0.20 Slight
    0.21-0.40 Fair
    0.41-0.60 Moderate
    0.61-0.80 Substantial
    0.81-1.00 Almost Perfect

    附帶一提,Kappa的範圍是-1到1,但如果Kappa算到最後變成負數了,表示兩位評分者彼此作對、評的完全相反,這樣也是另一種完全相反的一致性(?

    題外話,本篇的Cohen's Kappa適用於兩位評分者的情況
    如果是三位以上的評分者之間要算評分者信度,請採用Fleiss' Kappa
    Fleiss, J. L. and Cohen, J. (1973) “The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability” in Educational and Psychological Measurement, Vol. 33 pp. 613–619
    http://www.statisticshowto.com/fleiss-kappa/

    回覆刪除
  9. 大大我愛你,這不知道節省了我多少時間,親一個<3

    回覆刪除
    回覆
    1. To N.C.

      我也覺得這篇很好用,我們之間很一致喔,親一個<3

      刪除
  10. 非常感謝您,這篇真的非常清楚明白。救了我這個覺得就算是用中文解釋統計但仍然看來像是外星文的人啊~~~

    回覆刪除
  11. 我想請問: 若用來比機器的觀測值以及人的觀測值,使用此方法是可行的嗎?
    例如:比較AI對於圖像辨識的編碼結果以及人眼辨識後的編碼結果

    謝謝您

    回覆刪除
    回覆
    1. To transmlo,

      可以將Cohen's Kappa用於評估機器學習結果,但是用正確率還是比較有意義。

      Maarit Widmann在這篇文章中說明了Cohen's Kappa跟正確率評估上的差異
      https://thenewstack.io/cohens-kappa-what-it-is-when-to-use-it-and-how-to-avoid-its-pitfalls/

      文章中提到了Coken's Kappa的三個問題:1. Kappa值域是-1到1之間,但數值的差異並不是直觀的等比尺度或等距尺度。換句話說,要達到極端的-1或1非常困難,但在-0.5到0.5之間卻很容易。2. 如果分類的分佈很平衡,則Kappa值容易偏高。但機器學習的分類結果大多是不平衡。例如信用卡評等分類為Good跟Bad的例子中,Bad僅佔少數。這使得Kappa值容易偏低。3. Kappa值難以解釋,正確率相對直觀很多

      因此一般來說仍會建議使用正確率。

      刪除
  12. 布丁學長,這個計算器真是神器啊~~在網路上找統計解方,常常一下關鍵字就來到這裡!!太感謝了

    回覆刪除
  13. 感謝版主,真的是非常好用!我發展了一個類別架構來分析圖像作品,與協同各別coding之後,以一幅為單位,借用大大的程式,去計算每一幅的cohen's kappa值;然後逐一討論,

    有個疑問,總共20幅,有沒有可能算一個總的cohen's kappa值?是平均的概念嗎?

    回覆刪除
    回覆
    1. To mengchun,

      嗯…我覺得你應該是哪裏搞錯了。

      請注意一下基本上Kappa適用的是單一類別型,兩位評分者的情況。

      以這篇的例子來說,我們是兩位編碼者,每個被評分的單位只能允許一種類別,例如1 , 2, 3。但不能同時有1+2,2+3的這種情況。

      你的例子看起來像是兩位編碼者,有20個被評分的單位,但每個評分允許多個類別,例如A,B,C

      https://stats.stackexchange.com/a/224303
      如果你想要評估多類別編碼者間的一致性信度,Firebug根據這篇的做法,你需要將原本評估一致性的維度擴展到各個分類。請參考他列出的式子。

      不是平均數計算啦orz
      不過跟我想的有點不太一樣,原本我的想法是不是太天真了@.@”

      刪除
  14. 布丁你好,
    我有個疑惑想要請教,通常跑統計老師都會要求針對方法計算sample size,我找到是https://www.researchgate.net/publication/320148141_Guidelines_of_the_minimum_sample_size_requirements_for_Cohen's_Kappa
    但我的理解是他如果是對於rater1跟rater2來計算分數,rater1跟rater2的分數是跟嚴格遵循評分標準所下的分數各自先做一次kappa,然後再兩個kappa來比較
    不知道布丁大大覺得我這樣的理解有沒有看法,還是說我有看沒有懂XD?

    回覆刪除
    回覆
    1. To Wayne Williams,

      嗯,我沒有看懂。

      Kappa是計算兩位評分者的一致性係數。「兩位評分者」的意思是,你不會有「rater1的kappa」或是「rater2的kappa」。

      https://www.real-statistics.com/reliability/interrater-reliability/cohens-kappa/cohens-kappa-sample-size/
      看起來論文寫的計算方式已經很清楚了,為什麼不要照著論文的內容來計算呢?

      不過實務上應該還是很難滿足最小樣本數量要求吧?

      刪除
    2. 感謝布丁大大提供的這篇文章,等我詳讀一下

      刪除
    3. To Wayne Williams,

      https://www.real-statistics.com/reliability/interrater-reliability/cohens-kappa/cohens-kappa-sample-size/
      這篇跟你提到的論文是同個來源,而且有把試算表公式列出來,方便你參考。

      加油

      刪除
  15. 感謝你整理這篇文章~~~

    回覆刪除
  16. 布丁您好,請教一個基本問題:有coder 1, coder 2, 也算出了一致性係數。但在論文裡面,主要是呈現coder 1 與coder 2 算出來的平均數嗎?論文中如何呈現比較恰當呢?謝謝!

    回覆刪除
    回覆
    1. 您好,

      SPSS的教學大多都會附上如何在論文中報告分析結果的寫法。

      https://statistics.laerd.com/spss-tutorials/cohens-kappa-in-spss-statistics.php
      在這個網頁最下面可以看到「Reporting the output of Cohen's kappa」

      報告寫法如下:
      ````
      Cohen's κ was run to determine if there was agreement between two police officers' judgement on whether 100 individuals in a shopping mall were exhibiting normal or suspicious behaviour. There was moderate agreement between the two officers' judgements, κ = .593 (95% CI, .300 to .886), p < .001.
      ````

      試著翻譯的結果如下:
      ````
      對於購物中心裡100個人表現出正常或可疑行為,兩位警察在個別給出判斷後,本研究再以Cohen Kappa信度分析兩位警察的判斷結果是否一致。結果顯示兩位警察的判斷結果為中度一致性,K值為.593。95%信賴區間為.300至.886,p < .001。
      ````

      https://www.yongxi-stat.com/cohens-kappa/
      對應的中文翻譯我參考這篇。我現在用的Linux作業系統並沒有安裝SPSS。

      ----

      我這個分析器沒有加入信賴區間的分析。
      需要的話可以看SPSS的說明,或是用PSPP作出一樣的結果。

      PSPP是免費開放原始碼的統計工具。在大部分的資料分析中都可以取代SPSS,包括Kappa分析。

      https://www.researchgate.net/figure/Calculation-of-Cohens-simple-kappa_fig12_291166204
      PSPP中Kappa分析的操作教學,不過PSPP也沒有報告P值跟信賴區間。
      結果好像就跟我這篇差不多?

      這個P值小於0的意思是,Kappa值顯著不為0,也就是兩人不是亂給判斷。兩個人都給的一致不一致,還是要看Kappa值本身。

      刪除
    2. 謝謝,幫助我釐清了很多觀念

      刪除
  17. oh my god太感謝這個tool了,沒有這個的話我SPSS要按一百次手都要抽筋了(你的網頁我也是按一百次但步驟少,輕鬆很多)

    回覆刪除
    回覆
    1. 您好,

      能幫上忙真是太好了。
      不過信度分析做一百次,是不是哪裡怪怪呢?

      刪除
  18. 布丁您好,很感謝您的文章!想請問一下如果要算intra-rater 評測者間信度要用甚麼方式呢?上網找資料都是inter-rater的比較多,謝謝解答!

    回覆刪除
    回覆
    1. 您好,

      intra-rater​的信度分析在臺灣通常是稱作「再測信度」(test-retest reliability),主要是指評分者在不同時間給分的一致性,又稱為「穩定係數」(coefficient of stability)。

      ​根據測量資料類型的不同,計算信度的方式也不太相同。
      在大多情況下,連續數值的評分,也就是比率尺度的資料類型,可以使用相關分析。
      相關分析可以看我這篇:https://blog.pulipuli.info/2017/10/bivariate-correlation-analysis-pearson.html

      給予分類的評分,也就是名義尺度的資料類型,應使用Kappa分析。
      ​Kappa分析可以看我這篇:​https://blog.pulipuli.info/2015/06/cohenkappa-cohens-kappa-coefficient.html

      很多統計教科書都有講到再測信度,但你可能忽略了測量方式取得的資料類型不同,需要採用不同的信度分析方法。
      統計教科書大多都以問卷調查為主要教課內容。

      以下兩本書供你參考:

      榮泰生(2007)。Amos與研究方法。五南。(ISBN:978-957-11-4737-6)
      吳明隆、涂金堂(2006)。SPSS與統計應用分析。臺北市:五南。(ISBN:978-957-11-4173-2)


      ​​

      刪除
  19. 您好:想請問如果是多選題的話,也是用一樣的方法嗎?目前找好久都找不太到多選題計算信度的方式?

    回覆刪除
    回覆
    1. To Jacy,

      你把多選題的每一個選項視為一個題目。
      1-1. 第一題的第一個選項有沒有勾選
      1-2. 第一題的第二個選項有沒有勾選
      以此類推

      舉例來說,例如五題各4選項的多選
      可轉換成20題。
      然後就可以用一樣的思維來計算信度了。

      刪除
    2. 您好,就有點像是問卷多選題的方式嗎?那這樣該題的信度或是相互同意度,是把各選項算出來的值平均嗎?

      刪除
    3. 您好,

      雖然不太懂為什麼你要算這個題目的信度。
      不過kappa值是不能取平均的,你看它的公式就可以知道了。

      如果還沒看公式,那先把公式看一下,瞭解一下你到底在幹嘛比較好。

      刪除
    4. 不好意思,上面沒說清楚

      因為要進行圖片主題的內容分析,但因為一張圖片可能涵蓋兩種主題以上,故以複選題的方式進行編碼(我知道類目需互斥的原則,但考量資料特性),不確定再計算的時候,應以兩位編碼者選項需完全一樣的情況下去算嗎?例如coder A選主題k和主題p,coder B也需選主題k、p才能算同意

      但若以您提到的把多選題的選項視為一個題目,在效度程序上以多個數值呈現即可嗎?

      刪除
    5. 您好,

      對。Kappa計算就是要完全一致,才算是有信度。
      信度只會有一個值。

      效度是其他事情,兩者不可混為一談。

      刪除
  20. 你好,请问如果上面的计算区域不够我应该怎么办?

    回覆刪除
  21. 您好,想詢問先以資料量的25%做評分者間的信度檢驗,算出來的值有時候只有0.5多,但回去看資料其實只有一筆的評分不一致,那這樣的話,是要重新評分比較好嗎?另外若是所有的評分都一致,例如兩位評分者全部都給1,則會出現0或是constant的訊息,通常這樣會如何report呢?

    回覆刪除
    回覆
    1. 能給實際的例子來看看嗎?

      刪除
    2. 剛剛發現用您的計算機計算全部一致的coding(兩位coder針對15位受試者的回覆全部code 1),kappa值會是1,但用spss的交叉資料表出來會是「未計算統計資料,因為variable a以及variable b是常數」

      刪除
    3. 如果覺得計算有問題,何不找公式自己試算看看?

      刪除
    4. 好的~我再用公式算算看,因為也覺得全部一致理論上是1沒錯,只是不知道spss為什麼總會出現那個結果。
      謝謝您!

      刪除