論文進度報告：評估閱讀理解能力 Progress report: Measure Reading Comprehension

1月 21, 2011 碩士畢業論文 0 Comments Edit Copy Download

要評估一個人的閱讀理解能力並不是很容易的事情。除了閱讀理解的程度會隨著文章不同而有所變動之外，閱讀理解能力還涉及多方面的概念，根據Cromley等人(2010)提出的DIME Model，認為閱讀理解涵蓋了「先備主題知識」、「推論」、「閱讀策略」、「閱讀詞彙」與「閱讀流暢度」這五個構面；而Keshav(2007)、Bogucka & Wood(2009)、John & Roy (2010)等人又針對學術論文提出了閱讀指導，他們認為學術論文的重點通常落於「研究問題」、「研究貢獻」、「研究結果」的證據、「結論」等部分。

為了使閱讀理解能力的評估更為客觀，我採用了兩種方式來評估：問答題形式的心得報告以及四選一選擇題的測驗。並規劃為期兩週的閱讀文章作業流程來取得這些資料，而這也就是我論文中最主要的實驗設計。

實驗規劃

這是實驗是在數位學習碩士課程中作為一個課堂報告進行。在課堂報告目的中融入了我的實驗目的，我希望能在這次的作業中讓受試者使用KALS標註系統、並取得受試者閱讀理解能力資料。

在實驗開始之前，我會課堂中說明閱讀文章與標註系統操作，並告知受試者要在閱讀過程中填寫閱讀心得報告，以及閱讀文章完畢之後要進行閱讀理解測驗的訊息。說明結束之後，我請受試者先進行閱讀文章、確認閱讀心得報告的問題，並即時回答受試者的疑惑。

課堂結束之後，受試者會有兩週的時間閱讀文章並撰寫閱讀心得報告。在這段期間中，受試者可以利用課堂討論區進行非同步的提問，我也會在最短時間為受試者排解操作上的困難。受試者可在這段期間內任意時候利用數位學習平台繳交閱讀心得報告，在兩週期限結束之前，我也會確認尚未繳交的受試者，並催促受試者完成撰寫。

兩週報告結束後，我會要求受試者利用數位學習平台填寫閱讀理解測驗，並限時30分鐘內完成。除了填寫測驗時發生了操作上的問題之外，所有受試者都能在時限內完成。

另一方面，原本應該在兩週內完成的閱讀心得報告，卻仍有部分受試者無法在期限內繳交。所以我只好延後繳交時間，讓實驗過程從14天延長到16天才能回收所有的閱讀心得報告。然而閱讀心得報告在設計上並沒有嚴格要求時間限制，因此延後繳交並不會造成太大的影響。

閱讀文章選擇

在本次實驗中，閱讀文章是要給數位學習碩士課程「資訊科技融入教學」作為課堂作業來閱讀，因此文章的選擇與主題會受限於實驗情境，必須要搭配課程以及授課內容大綱，課程的涵蓋主題包括了數位學習理論、教案設計、研究方法、學習風格與適性化、遊戲式學習等。另一方面，由於我的系統需要辨識「詞性」的特徵，所以選用文章必須使用中文語言。

基於以上理由，我選擇使用黃桂芝、曾憲雄、翁瑞鋒與何筱婷於2008在數位學習科技期刊發表的「採遊戲式學習教育平台之科學教育活動設計」作為指定的閱讀文章。該文章是描述如何使用e-GBL遊戲式學習平台，並應用知識螺旋理論，讓遊戲式學習導入教學過程中，採用的研究方法是數位學習常見準實驗研究法，並利用了思考風格之學習分析。其探討議題多能與實驗情境配合，因此我選擇他作為本研究實驗中的指定閱讀文章。

關於這篇文章的原文可以到開放進用期刊「數位學習科技期刊」中下載，下載位置連結在此。我也做了這篇文章的介紹投影片如下：(SkyDrive下載)

閱讀心得報告設計

心得報告的規劃是參考Keshav(2007)、Bogucka & Wood(2009)、John & Roy (2010)等人認為閱讀學術論文的重點，並根據指定閱讀文章、實驗的情境來設計。閱讀心得報告是五題問答題，請受試者自由作答。不限字數，但在說明時提示受試者不用寫太多文字。每個題目配分皆為20分，滿分為100分。受試者必須在兩週的閱讀文章過程中繳交，但是實際上最後是延期到16天才收齊所有受試者的閱讀心得報告。

由於問答題的題目設計在評分上容易偏於主觀、難以取得公平。所以我安排兩位評分者為受試者的閱讀心得報告評分。這兩位評分者熟悉指定閱讀文章，能夠勝任評判閱讀理解能力的工作。每個題目皆有設計好的評分準則，依據題目複雜度的不同，評分準則有2到5條不等，皆有各自的配分。評分時則是請評分者依照此準則，評定受試者回答內容與此準則的符合程度來給分，以確保評分具備信度。

閱讀心得報告的題目與評分準則在評分者之間有多次討論與修正。最早設計時是6題(SkyDrive下載)，後來擬定評分準則 (SkyDrive下載)，最後的題目與評分準則如下：

這篇論文提出了哪些研究問題？你覺得是否清楚合適？
- 受試者是否能從研究問題取得資料？(10分)
  受試者是否能對研究問題提出自己的看法，且能夠解釋支持或反對的理由。(10分)
請簡單地敘述該論文的主要貢獻。
- 受試者是否能找到文中「研究貢獻」一節的敘述？(7分)
- 受試者是否能夠結合論文研究的結果結合到研究貢獻之中？(7分)
- 受試者是否能用自己的言語來合理地詮釋、說明研究貢獻？(6分)
哪些證據支持這篇文章的研究結論？論文中的研究數據是怎樣解釋結論？你是否有其他看法？
- 受試者是否能在研究結果與分析的段落找尋資料？(5分)
- 受試者是否能夠用自己的話撰寫簡潔的摘要？(5分)
- 受試者是否能夠連結研究資料與結論之間的關係？(3分)
- 受試者是否能夠質疑對這些證據，或是嘗試評估結論的正確性？(3分)
- 受試者是否能夠以這份研究數據提出不同解釋？(4分)
請提出這篇論文在研究方法上可以改善的地方。
- 受試者是否能發現樣本數量不足的問題？(3分)
- 受試者是否能發現單組前後測設計的缺點？(4分)
- 受試者是否能夠發現學習成效問卷的嚴謹性不足？(3分)
- 受試者是否能針對研究方法提出其他的建議？(5分)
- 受試者是否能夠以研究方法的缺點來檢討結論的合理性？(5分)
這篇論文能對你在實施教學上的啟發是什麼？
- 受試者是否能從敘述他從這份論文中學習到的知識 (10分)
- 受試者是否能夠能將論文內容與自身教學經驗結合提出看法 (5分)
- 受試者是否能夠在教學實施上提出舉例應用、或是新的研究看法或研究方向 (5分)

在回收受試者的閱讀心得報告之後，我擷取受試者針對各五個題目回答的答案，並重新組合成五份評分表格。以第四題的評分表格(SkyDrive下載)來說，表格中包含了題目、評分準則、受試者回答內容、評分欄位。評分表格除了可以方便評分者進行評分之外，還可以讓評分者容易比較所有受試者的回答狀況，以確保評分能夠客觀、公正。

評分者信度的評估方法

在回收受試者的閱讀心得報告之後，兩位評分者即依照評分準則給分。良好的評量工具需要具備效度與信度。閱讀心得報告的效度可從文獻探討中確定，而信度的計算方式，則讓我花了好一段時間研究。

根據余敏賢(2003)的教育測驗與統計重點整理所述，依照評分者人數與評分方法的不同，求評分者信度可用的評分方法有四種，引用表格如下：

		評分者人數
		二名	二名以上
評分方式	名次法 (等級資料)	Spearman等級相關係數	Kandall和諧係數
評分方式	分數法 (等距資料)	Pearson相關係數	變異數分析 (Hoyt分析法)

根據我的情況，應該採用Pearson相關係數。但是卻也有許多學者認為這是錯誤的作法。

大陸學者徐曉鋒與劉勇(2007)講解James(1993)的組內評分者間一致性評估的方式，他們指出信度與一致性的不同，此外也有組間與組內的差別。柴惠敏(2007)認為評分者信度評估不應該用Pearson相關係數，因為Pearson相關係數的前提是兩個變項應該是獨立，而我目前資料狀況中，兩位評分者評定出來的分數卻是相依的。他建議應該使用Shrout與Fleiss提出的組內相關係數分析 (intraclass correlation coefficient, ICC)來進行分析。但是ICC需要確認許多前提，竹家庄blog中有專家回答讀者問題中可以得知，這的確不是簡單、隨便就可以使用的一種工具。最後讓我打退堂鼓、回來使用Pearson的是庄主最後的一段話：

定量分析与其它绝大多数知识不同，只能循序渐进、一个台阶一个台阶往上爬。如果对进阶的方法不甚了了，与其大胆试用（大部分情况下会用错，而且错了还不知道原因何在），我强烈建议使用熟悉的经典方法，如回归、方差、crosstabs等等。经典方法也许用到你的数据上会有些问题、但那是已知的问题，而新方法可能带来的风险是无法预知。如果医生不了解某一新药，绝不敢乱用，而会使用已知作用有限并有副作用的旧药。我们是给数据看病的Data Doctor，也要有如此的基本医德。共勉。

閱讀心得報告結果分析

回收受試者的閱讀心得報告之後，兩位評分者即依照評分準則進行評分。評分結果再以Pearson相關係數進行分析，取得Pearson相關係數r = 0.832，雙尾的顯著性p = 0.000 < 0.001，顯示兩位評分者的評分具有顯著的相關性。據吳明隆(2009)的相關係數評判準則來看，r = 0.832屬於高度正相關，也就是評分者A認為高分的受試者、評分者B也認為高分，反之亦然。

相關係數評判標準
相關係數	相關程度
0.7以上	高度相關
0.4-0.69	中度相關
0.1-0.39	低度相關
0.1以下	弱或無相關

由於每個領域的評量工具都有不同的信度準則，r=0.832作為評分者信度來使用是否達到理想的信度水準，這點我還沒有找到足夠的文獻來支持。然而我的研究並不是專注於發展一個評量工具，所以分析到這邊我自認應該足矣。

基於以上信度水準，我可以有信心地將兩位評分者的分數取平均結合，成為最後的報告分數。簡單來說就是下圖：

閱讀理解測驗規劃

除了閱讀心得報告之外，我也根據Cromley等人(2010)提出的DIME Model來設計四選一的閱讀理解測驗。

DIME Model (Direct and Inferential MEdiation Model，直接與推論調解模型)是一個閱讀理解測驗設計的模型，Cromley等人認為「閱讀理解能力」(Comp. = comprehension)是由「先備主題知識」(Background)、「推論」(Inference)、「閱讀策略」(Strategies)、「閱讀詞彙」(Vocabulary)與「閱讀流暢度」(Word)這五個構面組成。並在2010的實驗中以生物學專業領域的學術文本作為指定閱讀文章，探討是否DIME Model也適用於特定領域的文章上。研究結果發現，先備主題知識、閱讀詞彙、閱讀策略與推論跟閱讀理解有顯著的影響。而沒有顯著影響的閱讀流暢度，可能是由於學術文章的重點與閱讀快慢並沒有太大影響的關係。

我採用DIME Model的架構來設計閱讀理解測驗，並依據Cromley等人的發現而捨棄閱讀流暢度的構面，僅以先備主題知識、推論、閱讀策略與閱讀詞彙這四個構面來設計題目。依照DIME Model的設計概念來看，只要檢測這四個構面即可推測出綜合的閱讀理解能力。

根據DIME Model題目設計的說明，配合我在實驗中的指定閱讀文章等實驗情境之後，四個構面的設計理念如下：

先備主題知識 (Prior topic knowledge)

測試受試者是否對於「遊戲式學習」、「科學教育」等該篇文章談論的主題概念有所誤解。
必須避免跟「詞彙閱讀」的題目相衝突。

推論 (Inference)

基於Hannon與Daneman (2001)發展出來的方法。
題目由固定形式組成：「A句」並且「B句」因此。再請受試者選擇A句到B句推論的正確答案。
每個答案都是正確的，但只有一個跟推論結果相關。

閱讀理解策略使用 (Reading comprehension strategy use)

測試受試者是否能夠使用閱讀理解策略，例如「摘要」、「預測」、「自我測試」、「先備主題知識活化」、「做筆記(例如圖表繪製)」、「圖文批配」。
設計題目時，需以另一篇類似的文章作為閱讀題目。另一篇文章為「黃國豪, 李玲梅, 王皓瑀, 洪珮菁, 吳佳茹, & 賴煖菱. (2010). 無所不在學習之系統建置與成效分析─以小學生認識校園植物為例. 數位學習科技期刊, Volume2(Number3). Retrieved from http://ijdlt.org/paper_info.php?pid=52043」，這是與實驗指定閱讀文章屬於同樣的期刊，表示審核門檻雷同。儘管摘要敘述方式與實驗閱讀論文不同，但是與大部分論文的摘要相同，足以作為代表。

閱讀詞彙 (Reading vocabulary)

測試受試者是否能理解「專有詞彙」跟「非專有詞彙」的意義。
題目設計為：列出一段敘述，在要測試的詞彙下畫底線，並要求受試者選擇跟這個詞彙最符合的敘述。
詞彙是選擇自重要的關鍵概念，但並不會在題目的段落中解釋。
必須避免跟「先備主題知識」的題目相衝突。

依照以上四個構面與設計理念，最後我設計出15題的閱讀理解測驗 (SkyDrive下載)。並在為期兩週的閱讀文章期間結束之後，於數位學習平台上進行限時30分鐘的測驗，測驗完成之後即進行統計分析。

測驗的評估方法

比起問答題的心得報告，選擇題的測驗較容易評估，不僅方法客觀、爭議性也較少。在此我主要參考了鄭湧涇(1998)的評量結果統計分析步驟：

將試卷依得分的高低排列。
由最高分向下取全部試卷數的27%或三分之一，稱為「高分組」。
再由最低分向上取與高分組相同份數的試卷，做為「低分組」。
分別計數高、低分組，選答各試題每一選目的人數，記錄在「試題卡」(Test item card)上。
計算各試題之「難度指數」，以百分比表示，其計算方法如下:

難度指數(P) = {[T-(R_U+R_L)]／T}x100

R_U :高分組答對該題人數

R_L :低分組答對該題人數

T :全部取樣人數，即高、低分組試卷份數之和

求取各試題之「鑑別指數」，其計算方式如下:

鑑別指數(D) =（R_U-R_L）／(1/2)T

評鑑每一試題的「擾亂答案」(選目)之有效性。
將所有試題依其難度指數與鑑別指數值製作綜合分析表，並求出其平均值;綜合分析。

最後我再用庫李法(Kuder-Richardson method，1937)中的KR₂₀來評估內部一致性信度。但是必須說明的是，許多評估測驗評量的指導中並沒有說明他們是使用哪些數值作為計算KR₂₀的數據，到底是要用全部受試者的答題狀況、還是應該要像難度指數與鑑別指數一樣只取用高分組、低分組的答題狀況來計算，似乎較難以有所定論。可以確定的是，僅使用高分組與低分組來計算KR₂₀信度係數的結果會比採用全部受試者的結果還要高，也就是數字看起來會比較漂亮的意思。所以以下KR₂₀內部一致性信度係數我只有使用高低分組的受試者來計算。

閱讀理解測驗分析結果

19位受試者完成測驗之後，我就可以依據測驗結果來進行分析。

初步分析結果顯示整體難度指數為36%，比正常情況下的50%還要簡單很多，也不到理想的37.5%；整體鑑別指數為0.29，屬於不佳的試題，必須加以改進或棄卻(Ebel, 1972)；整體無效選目高達36.8%，也就是完全不會有人去選、一看就知道是錯誤的選目數量。而最後的KR₂₀內部一致性信度為0.56，在10到15題的小型題庫中算是可接受的範圍(林朝順等，2005)，但不算理想。

試題鑑別指數(D)的評鑑標準
D值	評鑑
0.40以上	極佳的試題
0.30-0.39	尚可的試題，可能需要稍加改進
0.20-0.29	不佳的試題，必須加以改進或棄卻
0.19以下	極差的試題，應棄卻

為了提高這份測驗的信度，參考Ebel (1972)的建議，將題目中鑑別指數等於或低於0.2的題目刪除，修正整份測驗。刪減之後題目數量從15題降至8題，整體難度指數提高到47.5%，屬於理想的程度；整體鑑別指數提高到0.6，屬於極佳的程度；無效選目降低到28.3%，KR₂₀內部一致性信度更是提高到0.77。

整體而言，修正後的測驗都顯示出較理想的狀況，因此我將之作為「測驗分數」來採用。修正過程簡單來說就是下圖：

閱讀理解測驗的詳細結果請看投影片：(SkyDrive下載)

閱讀理解分數處理

在實驗中利用兩種評量工具可以取得兩項數值：「報告分數」與「測驗分數」。我以Pearson相關係數再做分析，計算出r = 0.616，雙尾顯著性p = 0.005 < 0.01，屬於顯著的中度正相關，顯示這兩項數值都可以測量出同一種概念，也就是閱讀理解能力。接著我將兩項數值以比例的方式標準化，並取平均結合，得到最後的閱讀理解分數。處理方式如下圖：

整個處理過程的分數列於下表：

受試者
編號

修正前
測驗分數

測驗分數

評分者A
報告分數

評分者B
報告分數

報告分數

閱讀理解
分數

0.84

55.5

0.81

35.5

0.49

0.54

45.5

0.6

0.32

37.5

0.31

42.5

0.56

0.41

0.86

0.25

0.53

0.86

58.5

0.94

0.69

53.5

0.88

18.5

0.1

0.28

我將以上所有過程以投影片方式說明，投影片如下：(SkyDrive下載)

小結

這些資料都是我論文的一部分，但是在寫這篇文章的時候，我並不是抱著我在寫論文的心態而寫，而只是單純地記錄我是如何處理這些資料以及這之中遇到的困惑。實際上論文時可能會將一些無法解答的疑惑刪除、修飾，讓論文寫起來漂亮一點。

儘管為了我花了許多精力在蒐集文獻、規劃如何評估閱讀理解能力，但是平心而論，這並不能非常準確地說這樣子就能評估閱讀理解能力，只能說是盡可能地去得到受試者在閱讀理解能力上高低的量化數值而已。就如我內文所說的，這個研究並不是發展閱讀理解能力評估量表或是心得報告規範工具，在撰寫這份論文之中，我最多就做到這邊而已。

被迫採用這種不穩定的評估方式，最大的原因還是受限於實驗情境中，必須要配合課堂內容而選定文章。碩士生閱讀的文章不會是一般常見的泛用讀本，自然也難以有客觀、公正的評量工具。迫於這種情況下只能自己規劃，但這不管怎麼做都很難讓人真的信服。

最理想的解決方式還是換一個實驗情境、採用經過公開評量的工具，例如PIRLS(Progress in International Reading Literacy Study，促進國際閱讀素養研究)或是全民英檢使用的閱讀文章與評量工具，就能夠避免陷入這種窘境。

事實上，在之前的規劃中，我的確是打算採用PIRLS的文章作為實驗的工具。但是人算不如天算，在種種無奈與時間限制之下，我只能採用目前這種作法。然而換個角度想想，很多時候我們很難去創造一切盡如己願的環境來評估資料，像現在這樣能夠配合場域、情境即時地設計一個評估方式，說不定這才是比較貼近現實的狀況。變化並沒有錯，錯的是無法因應變化的人，我是這樣子認為的。

即使如此，我想我在評估閱讀理解能力的過程中，應該還是有些地方值得別人參考、使用，所以才將資料彙整、撰寫成這篇文章。希望能夠幫到大家的忙。

參考文獻

Cromley, J. G., Snyder-Hogan, L. E., & Luciw-Dubas, U. A. (2010). Reading Comprehension of Scientific Text: A Domain-Specific Test of the Direct and Inferential Mediation Model of Reading Comprehension. Journal of Educational Psychology, 102(3), 687-700.
Keshav, S. (2007). How to read a paper. ACM SIGCOMM Computer Communication Review, 37(3), 83–84.
Bogucka, R., & Wood, E. (2009). How to Read Scientific Research Articles: A Hands-On Classroom Exercise. Issues in Science & Technology Librarianship, (59), 4.
John W. Little, & Roy Parker. (2010, Fall). How to Read a Scientific Paper. Retrieved November 23, 2010, from http://www.biochem.arizona.edu/classes/bioc568/papers.htm#evaluate
黃桂芝, 曾憲雄, 翁瑞鋒, & 何筱婷. (2008). 採遊戲式學習教育平台之科學教育活動設計. 數位學習科技期刊, 1(1). Retrieved from http://ijdlt.org/paper_info.php?pid=27
余敏賢. (2003). 教育測驗與統計：重點整理. 高點致勝叢書系列 (五版.). 臺北市: 高點文化. Retrieved from http://library.yfms.tyc.edu.tw/webopac/detdata.php?pagerows=15&orderby=BRN&qrow=1&brn=1031623
James, L. R., Demaree, R. G., & Wolf, G. (1993). rwg: An assessment of within-group interrater agreement. Journal of Applied Psychology, 78(2), 306–309.
徐晓锋, & 刘勇. (2007). 評分者內部一致性的研究和應用. 心理科学, 30(5), 1175-1178. Retrieved from http://cnki50.csis.com.tw/kns50/detail.aspx?QueryID=3&CurRec=1
Statistics and SAS Package, School of Physical Therapy, National Taiwan University. Retrieved January 20, 2011, from http://www.pt.ntu.edu.tw/hmchai/PTcomputer/hSAS/SAScontinuous/SASicc.htm
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychol Bull, 86(2), 420–428.
庄主. (2009, May 17). 如何选择Intraclass correlation coefficient (组内相关系数) 的模型？ - Windows Live. Retrieved January 20, 2011, from http://zjz06.spaces.live.com/blog/cns!3F49BBFB6C5A1D86!1228.entry?wa=wsignin1.0&sa=753480086
吳明隆. (2009). SPSS 操作與應用-問卷統計分析實務 (二版三刷). 台北: 五南.
鄭湧涇. (1998, September 18). 科學學習成就評量：II.評量結果的統計分析. Retrieved December 27, 2010, from http://140.122.143.143/doc/evaluate3.htm
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160.
林朝順, 鄒國英, 劉正耀, 胡彼得, & 楊育純. (2005). 醫學系筆試多項選擇題品質分析. 輔仁醫學期刊, 3(4), 213–220.
Ebel, R. L. (1972). Essentials of educational measurement.

布丁布丁吃什麼？