:::

編碼者間一致性信度:Cohen Kappa係數計算器 / Intercoder Reliability: Cohen's Kappa Coefficient Counter

intrater

我寫了一個線上計算Cohen Kappa係數的工具。本文簡單介紹編碼者間一致性信度與操作教學。


為什麼要算編碼者間的一致性信度? What’s Intercoder Relicability?

William M.K. Trochim這張圖傳神地描繪出編碼者間一致性的問題。兩位編碼者(coder),或著說是觀察者(observer) (註1),在分析與觀察同一件物品或現象時,兩個人的觀點可能會不太一樣。

註1:因為現在觀察大多是交給機器錄影或錄音,較無觀察偏見的問題。主要會受到人為影響的部分則是分析這些錄影與訪談的資料,而分析質性資料將之給與概念化標籤的方法稱之為「編碼」,進行編碼的研究者也就是「編碼者」。

如果兩人編碼結果相差很大,那表示研究者的分析方式不夠客觀、帶有嚴重偏頗。如果兩人編碼結果相同,那表示這是一個很穩定、具有足夠信度、可以重複使用的編碼方法。

因此現在的研究方法中會要求質性編碼要以兩位以上研究者來進行編碼,並利用統計來計算編碼者之間的一致性信度。

Cohen Kappa係數 / Cohen's Kappa Coefficient

image

依據資料類型的不同,一致性信度有很多種計算方式。在此介紹的是適用於名義尺度資料類型的Cohen Kappa係數計算方法。名義尺度的意思是資料編碼本身只是一個「代號」,代號與代號之間並沒有順序、間隔、比例的關係。Cohen Kappa係數只看有多少個編碼,兩個人之間的編碼相符的比例為何。由於Cohen Kappa排除了編碼者亂填的隨機性,因此比單純的相符百分比還來得可信。

Kappa係數介於-1 ~ 1之間。一般來說,能達到0.8以上是很棒的結果,但通常達到0.6~0.8就可以發表了。至於0.6以下,則是建議你們兩位編碼者再討論一下編碼方法,有更多共識之後再來重編一次吧。

Kappa係數

一致性程度

< 0.4

0.4 ~ 0.6

一般

0.6 ~ 0.8

> 0.8

極佳


計算器操作說明 / Counter Usage Guide

  1. 首先,在Google試算表或是Excel中,複製兩位編碼者的編碼結果。
    image
  2. 貼在「coding result」的表單欄位中。
    image
  3. 按下「Count Cohen’s Kappa Coefficient」之後,結果表格就會呈現在下方。紅字的部分就是Cohen Kappa係數了。 
    image

Cohen Kappa係數計算器 / Cohen's Kappa Coefficient Counter

總共21 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. 說明之後補上,但我得說一句話:Blogger的編輯器對JavaScript不友善的程度,快讓我抓狂了!
    一旦編輯,我的JavaScript全部就會被強制換版面。有沒有這麼痛苦!!
    Blogger編輯器請多多跟Windows Live Writer看齊好嗎?至少不要打壓人家可以嗎?orz

    回覆刪除
  2. 本頁短網址:http://j.mp/2015-kappa

    回覆刪除
  3. night worker...good job!!!

    回覆刪除
  4. To 4樓匿名,

    我覺得熬夜工作還是不太好,應該早睡早起才是orz

    回覆刪除
  5. 非常感謝大大寫了一個這方便的程式,但我希望把結果放置在我的論文裡,
    那我的文章中實驗軟體不知要怎麼表示比較好? 我知道大部分的人都是用spss來分析的!!

    回覆刪除
  6. To 7樓 一直在想你 ,

    請寫使用Cohen Kappa係數進行信度檢定即可,軟體不是重點。
    雖然SPSS可以跑統計,但是比較窮的話,其實Excel也可以跑關聯分析、T檢定,再沒錢的話也可以用LibreOffice Calc來跑統計,連軟體都不想裝的話還可以用雲端資料分析暨導引系統 ( http://www.r-web.com.tw/ )
    反正用的都是一樣的方法,跑下去結果都是一樣,應該在意的是方法而不是軟體本身。

    不過除非我寫錯啦,倒時候再給我提醒一下,感謝感謝orz

    回覆刪除
  7. 謝謝你整理得如此詳細,真是我的救星,甘溫啊!

    回覆刪除
  8. 補充一下相關文獻

    Cohen's Kappa是來自於Jacob Cohen (1960)的文章:
    Cohen, J. (1960). A coefficient of agreement for nominal scale. Educational and Psychological Measurement, 20(1), 37–46. doi:10.1177/001316446002000104

    然而,在一開始發表Kappa的計算方式的原文中,Cohen其實並沒有特別說明Kappa的程度
    許多文章都說Cohen認為Kappa係數要在多少多少以上才算可以接受,其實是錯誤的引用

    不過仍然有許多研究對Kappa係數的範圍有所界定,其中一篇就是Landia與Koch (1977)的文章:
    Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 159–174.

    該文章中界定Kappa統計量與對應的一致性程度如下:
    < 0.00 Poor
    0.00-0.20 Slight
    0.21-0.40 Fair
    0.41-0.60 Moderate
    0.61-0.80 Substantial
    0.81-1.00 Almost Perfect

    附帶一提,Kappa的範圍是-1到1,但如果Kappa算到最後變成負數了,表示兩位評分者彼此作對、評的完全相反,這樣也是另一種完全相反的一致性(?

    題外話,本篇的Cohen's Kappa適用於兩位評分者的情況
    如果是三位以上的評分者之間要算評分者信度,請採用Fleiss' Kappa
    Fleiss, J. L. and Cohen, J. (1973) “The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability” in Educational and Psychological Measurement, Vol. 33 pp. 613–619
    http://www.statisticshowto.com/fleiss-kappa/

    回覆刪除
  9. 大大我愛你,這不知道節省了我多少時間,親一個<3

    回覆刪除
    回覆
    1. To N.C.

      我也覺得這篇很好用,我們之間很一致喔,親一個<3

      刪除
  10. 非常感謝您,這篇真的非常清楚明白。救了我這個覺得就算是用中文解釋統計但仍然看來像是外星文的人啊~~~

    回覆刪除
  11. 我想請問: 若用來比機器的觀測值以及人的觀測值,使用此方法是可行的嗎?
    例如:比較AI對於圖像辨識的編碼結果以及人眼辨識後的編碼結果

    謝謝您

    回覆刪除
    回覆
    1. To transmlo,

      可以將Cohen's Kappa用於評估機器學習結果,但是用正確率還是比較有意義。

      Maarit Widmann在這篇文章中說明了Cohen's Kappa跟正確率評估上的差異
      https://thenewstack.io/cohens-kappa-what-it-is-when-to-use-it-and-how-to-avoid-its-pitfalls/

      文章中提到了Coken's Kappa的三個問題:1. Kappa值域是-1到1之間,但數值的差異並不是直觀的等比尺度或等距尺度。換句話說,要達到極端的-1或1非常困難,但在-0.5到0.5之間卻很容易。2. 如果分類的分佈很平衡,則Kappa值容易偏高。但機器學習的分類結果大多是不平衡。例如信用卡評等分類為Good跟Bad的例子中,Bad僅佔少數。這使得Kappa值容易偏低。3. Kappa值難以解釋,正確率相對直觀很多

      因此一般來說仍會建議使用正確率。

      刪除
  12. 布丁學長,這個計算器真是神器啊~~在網路上找統計解方,常常一下關鍵字就來到這裡!!太感謝了

    回覆刪除
  13. 感謝版主,真的是非常好用!我發展了一個類別架構來分析圖像作品,與協同各別coding之後,以一幅為單位,借用大大的程式,去計算每一幅的cohen's kappa值;然後逐一討論,

    有個疑問,總共20幅,有沒有可能算一個總的cohen's kappa值?是平均的概念嗎?

    回覆刪除
    回覆
    1. To mengchun,

      嗯…我覺得你應該是哪裏搞錯了。

      請注意一下基本上Kappa適用的是單一類別型,兩位評分者的情況。

      以這篇的例子來說,我們是兩位編碼者,每個被評分的單位只能允許一種類別,例如1 , 2, 3。但不能同時有1+2,2+3的這種情況。

      你的例子看起來像是兩位編碼者,有20個被評分的單位,但每個評分允許多個類別,例如A,B,C

      https://stats.stackexchange.com/a/224303
      如果你想要評估多類別編碼者間的一致性信度,Firebug根據這篇的做法,你需要將原本評估一致性的維度擴展到各個分類。請參考他列出的式子。

      不是平均數計算啦orz
      不過跟我想的有點不太一樣,原本我的想法是不是太天真了@.@”

      刪除