這是一篇課堂期末報告,我利用Weka的全域循序樣式演算法(Generalized Sequential Patterns, GSP)去探勘KALS標註系統底下的閱讀路徑。報告內容含括了投影片與報告文章。
This is a course final report. I use Weka’s algorithm “Generalized Sequential Patterns” (GSP) to discover the annotation path in KALS's cooperative reading. This article includes my full report and slide.
檔案下載 / Report Download
以下是報告的內文。
壹、 緒論
隨著資訊時代的來臨,圖書館典藏的館藏資料也從傳統紙本圖書逐漸加入了電子書的類型。電子書係以數位資料方式儲存,可透過電腦、平板電腦、電子書載具等數位設備來閱讀。與紙本圖書相比,電子書具有容易借閱、輕便攜帶等特色。被稱為「原生數位民族」的現代人來說,電子資源的使用與電子書的閱讀已經逐漸普及。謝建成與趙素貞在2009年調查中部某大學圖書館的電子書採購與使用狀況中發現,讀者使用NetLibrary電子書的次數已經從2002年的262次逐漸增加到2006年的8432次(如圖 1所示)。為了因應逐年上升的電子書使用量,該大學的電子書採購量也從2005年的359冊大幅上升到2006年的5358冊(如圖 2所示)。可見圖書館同樣重視電子書閱讀的需求。
圖 1 某大學圖書館2002至2006電子書使用次數
註:「大學圖書館電子書使用效益之研究」,謝建成、趙素貞,2009,圖書資訊學研究,3(2),25–54。
圖 2 某大學圖書館NetLibrary電子書訂購冊數
註:「大學圖書館電子書使用效益之研究」,謝建成、趙素貞,2009,圖書資訊學研究,3(2),25–54。
然而,這份調查研究將電子書的使用情形與紙本圖書相互比較,卻發現讀者仍偏好使用紙本圖書,使用率甚至多達電子書的2.3倍。如圖 3所示,不論是任何分類的書籍上,紙本圖書的使用次數都較電子書為多。儘管謝建成與趙素貞的研究僅止於量化統計調查,並未研究結果造成的原因有進一步的質性探討,但這份研究結果依然透露出以下幾種可能性。舉例來說,電子書的收錄數量仍不及紙本圖書之多。對於找尋特定主題的讀者來說,除了紙本圖書之外別無選擇;另一方面,目前的電子書操作介面,往往如圖 4所示,著重於與紙本圖書相同體驗的排版、翻頁、以及標註畫記等功能上。對於原本就已經熟悉紙本圖書閱讀方式的讀者來說,電子書除了攜帶輕便之外,仍缺乏能夠助於讀者加深閱讀理解的關鍵閱讀輔助功能。
圖 3 某大學圖書館2002至2006紙本圖書與電子書使用情形比較
註:「大學圖書館電子書使用效益之研究」,謝建成、趙素貞,2009,圖書資訊學研究,3(2),25–54。
圖 4 電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0
註:「電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0」,台灣水鳥研究群 彰化海岸保育行動聯盟,2007年1月4日,Flickr – 相片分享!。上網日期:2014年1月19日,檢自:http://www.flickr.com/photos/waders/345466812/
電子書的優勢不只是數位化資料容易攜帶,更重要的是,電子書能夠詳細記錄讀者的閱讀行為,更進一步地整合多位讀者的閱讀行為資料進行分析,並結合數位學習的閱讀輔助策略機制,讓讀者在閱讀過程中能夠應用合適的閱讀理解策略,據此提昇閱讀理解的層次。因此,為了探究電子書在閱讀輔助機制上的可能性,本研究嘗試以多位讀者在同一份電子書閱讀文本上的閱讀標註為資料來源,應用Srikant與Agrawal(1978)提出的全域循序樣式(Generalized Sequential Patterns)資料探勘演算法,找尋多位讀者在同一份閱讀文本中共通的閱讀標註序列,作為下一步發展「合作式閱讀標註」 (陳勇汀,2011)輔助機制的基石。
貳、 研究方法
一、 研究對象
本研究係基於陳芳雅於2012年在桃園縣一所國民小學以五年級學生針對電子書閱讀文本進行合作式閱讀標註的閱讀資料進行分析。實驗參與者總共28人,皆具備足夠的資訊素養,能夠於電子書上進行合作式閱讀標註。本研究採用的電子書為「國際閱讀素養調查」(Progress in International Reading Literacy Study,簡稱PRILS)發展適合國小四年級學生為主要閱讀對象之教學實驗所用的閱讀範文「小海鸚鵡之夜」,閱讀難度上也適用於本研究之國小五年級學童。實驗期間所有28位實驗參與者共畫記了661份標註,本研究即以此作為探勘閱讀標註序列的研究對象。
二、 KALS知識標註學習系統
本研究中讀者在電子書進行合作式閱讀標註的閱讀系統為KALS知識標註學習系統(Knowledge Annotation Learning System)。此一系統為陳勇汀(2011)所發展之應用於HTML網頁電子書上的閱讀標註系統。KALS不僅可讓靜態的HTML網頁具備能夠針對文字內容進行標註的標註撰寫機制(如圖 5所示),也能夠讓讀者針對閱讀文本內容進行討論(如圖 6所示)。
撰寫標註的功能方面,讀者可以自由選擇閱讀文本上的範圍文字(anchor text),針對該範圍的文字撰寫標註。讀者除了撰寫豐富本文(rich text)的HTML註解(note)之外,還能夠為標註選擇推論、辨析、連結、摘要、提問、字詞解釋、其他等7種不同的標註類型鷹架,作為輔助讀者有效進行閱讀的輔助策略。
圖 5 KALS撰寫標註示意圖
在基於標註的討論功能上,如圖 6所示,讀者可以針對文中特定段落進行討論。討論功能類似一般常見的討論區,讀者可以針對其他讀者的發言進行回應,而回應時讀者也可以選擇推論、辨析、提問、釋疑、偵錯、其他等6種不同類型的標註討論鷹架,輔助讀者進行有效的合作討論。
圖 6 KALS基於標註進行討論的示意圖
參、 閱讀標註序列探勘機制
28位實驗參與者利用KALS知識標註學習系統在「小海鸚鵡之夜」電子書閱讀文本上進行合作式閱讀標註,而本研究即以此實驗結果所撰寫的661標註發展閱讀標註序列探勘機制。以下依序說明閱讀標註序列探勘機制發展架構。
一、 資料處理
本研究欲針對661份閱讀標註所針對的範圍位置進行循序樣式探勘。由於每份標註所針對的閱讀標註位置皆有所差異,若以原始範圍位置直接進行循序樣式探勘,將難以找到大部分讀者皆相同的閱讀標註循序樣式。因此本研究不以讀者所標註之原始閱讀範圍,而是將範圍擴大到以句子為單位來進行循序樣式探勘。
舉例來說,本研究以句號、分號等標點符號為依據,將該閱讀文本分成60句子。其中編號3的句子內文如下:
「在冰島這個國家的一座希米島上,一群橘紅色嘴巴、黑白色羽毛的鳥兒每年都會來訪。這些鳥被稱為『海鸚鵡』。」
其中實驗參與者編號722所撰寫的標註位置落於「橘紅色」三個字中,位於編號3句子裡,因此本研究將之視為編號722實驗參與者標註序列包含編號3的句子。
經過此資料分析,28位實驗參與者皆有其閱讀標註所在句子的編號,再依照標註撰寫時間的順序組合成閱讀標註序列。舉例來說,編號518實驗參與者的序列即為「0, 5, 11, 43, 39, 40, 4, 47, 45, 23, 25, 37, 7, 54, 44, 3, 36」,其中逗號為區隔不同句子編號的分割單位。再來將之轉換為能在Weka中進行全域循序樣式探勘的ARFF檔案格式(如圖 7所示),如此便能夠進行下一步的循序樣式探勘。
@relation annotation
@attribute 0 {1914,1911,1922,1908,1910,1923,1904,1913,1900,1896,1906,1920,1918,1909,1921,1899,1901,1917,1912,1895,1898,1905,1916,1903,1919,1915,1897,1907,1894}
@attribute 1 {6,44,39,25,28,3,35,36,53,2,22,9,8,11,19,26,32,38,7,23,34,43,52,12,45,17,5,15,47,13,0,21,14,37,18,40,24,27,4,54,16,58,51,41,46,29,56,42,31,1,33,10,48,30,49}
@data
1914,6
1914,44
1914,39
1914,25
1914,28
1914,3
1914,35
1914,39
1914,36
1914,53
1914,2
1914,22
1911,9
1911,8
1911,11
1911,19
(以下省略)
二、 循序樣式探勘
(一) 全域循序樣式演算法
本研究Srikant與Agrawal(1978)提出的全域循序樣式(Generalized Sequential Patterns,簡稱GSP)資料探勘演算法來分析讀者在電子書上進行閱讀標註的共同循序序列。GSP演算法係一種關連式規則的資料探勘演算法,用於發掘多位讀者各自進行的閱讀標註位置中順序相同的共同循序序列。根據Srikant與Agrawal實證比較,GSP的效率比起傳統用於循序序列探勘的Apriori All演算法還要更高,而且也能夠輕易應用於大量資料之中。
(二) 資料探勘工具Weka
本研究採用Weka來實作GSP演算法。Weka (Hall et al., 2009)係紐西蘭懷卡託大學(the University of Waikato)的機器學習小組(Machine Learning Group)以Java發展的資料探勘工具。Weka支援分類、分群、關連式規則等三大類資料探勘的演算法,而GSP則是屬於關連式規則中的演算法之一。受惠於Java具備的跨平台通用的特性,Weka支援以命令列(command line)的形式進行操作。本研究即是透過命令列將KALS的資料輸入Weka、設定GSP演算法與參數,再取得Weka的分析結果,以作為KALS展示讀者閱讀標註序列的探勘結果。
(三) 最小支持度門檻參數設定
使用GSP進行資料探勘時,必須輸入如 圖 7所示之每位讀者的閱讀序列,此外還必須設定最小支持度門檻(minimum support threshold)的參數。最小支持度門檻係指全部序列中包含此序列的最小比例,介於1至0之間,本研究將此參數預設為0.5。舉例來說,若最小支持度門檻設為0.5,意思即為28人中至少14人同樣具備同樣序列,才會被GSP列為候選序列。而候選序列中長度最長的序列則會被本研究作為閱讀標註候選序列。
最小支持度門檻越高,代表GSP找出的閱讀標註候選序列代表性越高,但是也因此較難找出較長的共同循序序列;反過來說,若最小支持度門檻越小,則越容易找出較長的閱讀標註候選序列,但相對地代表同樣出現一樣序列的讀者人數越少,代表性也越低。要如何取得閱讀標註候選序列的長度與代表性的平衡,是發展閱讀標註序列探勘機制的重要議題。
(四) 最小序列長度參數設定
由於本研究欲發展之閱讀標註序列的目的著重於輔助讀者閱讀,必須提供足夠長度的序列作為讀者的參考資料,因此本研究另外加入最小序列長度參數來動態降低最小支持度門檻。最小序列長度係閱讀文本的句子總數的1/5取整數,以本研究採用的「小海鸚鵡之夜」共60句為例,最小序列長度即為12句。GSP探勘結果的閱讀標註序列長度必須於最小序列長度以上,才會被作為閱讀標註序列的最後結果。為此,GSP的最小支持度門檻將會依據最小序列長度進行動態的調整。
本研究在以GSP探勘循序序列時預設採用的最小支持度門檻為0.5,若探勘結果的閱讀標註候選序列長度未達最小序列長度,則降低最小支持度門檻0.05後重新計算,直到閱讀標註候選序列等於最小序列長度,或是在最小支持度門檻低於0.05的時候,將最後取得的閱讀標註候選序列作為閱讀標註序列的最後結果。
此外,為了避免計算次數過多導致伺服器負荷過大,本研究為GSP計算結果進行快取(cache),設定快取保留時間為30分鐘。換句話說,30分鐘內取得的閱讀標註序列結果皆會來自同一快取,即使其他讀者新增額外的標註也不會立即改變閱讀標註結果,直到30分鐘後重新計算才會顯示出改變。
肆、 研究成果
本研究將GSP的探勘結果實作為KALS知識標註學習系統中的「導讀」(reading guide)功能,如圖 8所示。最後探勘共得到了六個序列的句子,依序為:
- 在冰島,「倫迪」的意思就是「海鸚鵡」。
- 從今晚開始,連續兩個星期,海鸚鵡將會離開並到海上過冬。
- 當她站在懸崖高處瞭望海洋時,她發現了當季的第一隻海鸚鵡。
- 在這兩個星期中,所有希米島上的孩子白天都可以睡很晚,這樣到了夜晚他們才能夠外頭活動。
- 當她站在懸崖高處瞭望海洋時,她發現了當季的第一隻海鸚鵡。
- 牠們的身軀矮胖、翅膀短小,使得牠們在起飛和降落時動作很不靈敏。
讀者可以利用導讀功能中的「下一步」讓KALS一步一步帶領讀者進行閱讀,藉由比較自己的閱讀標註與本研究探勘出的閱讀標註序列路徑的差異,以此反思自己對此文本的閱讀方式。
圖 8 閱讀標註序列探勘結果
根據分析探勘結果的六個句子,可以發現探勘結果中的3與5是屬於同一句,代表讀者在閱讀完之後仍有回頭閱讀開頭的跡象;而這六個句子並非按照閱讀文本的先後順序依線性呈現,而且每一句的間隔位置不一,句子之間也沒有明顯的規律。這個探勘結果發掘出了與傳統認知的常識不同的序列,而有別於一般閱讀教學的內容,因此透過GSP探勘閱讀標註序列具有繼續發展的潛力。
伍、 結論與未來發展
本研究以全域循序樣式(Generalized Sequential Patterns,簡稱GSP)演算法探勘28位讀者在同一份閱讀文本上進行閱讀標註的序列。根據動態調整GSP最小支持度與限制最小序列長度的設定之下,最後探勘結果呈現出位於閱讀文本之不同的先後順序、難以看出規律的6個句子。由於探勘結果有別於傳統閱讀教學教師所教導之閱讀策略,透過GSP的閱讀標註序列探勘可提供另一種閱讀教學策略的發展依據。未來研究應繼續深入探究將GSP探勘之閱讀標註序列應用至閱讀輔助機制的策略,或是依據標註類型、讀者閱讀理解能力的高低來動態調整閱讀標註序列的結果,最後發展出能夠活用合作式閱讀標註之巨量資料(big data)的閱讀輔助機制。
- 台灣水鳥研究群 彰化海岸保育行動聯盟(2007年1月4日)。電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0。Flickr – 相片分享!。上網日期:2014年1月19日,檢自:http://www.flickr.com/photos/waders/345466812/
- 謝建成、趙素貞(2009)。大學圖書館電子書使用效益之研究。圖書資訊學研究,3(2),25–54。上網日期:2014年1月16日。
- 陳勇汀(2011年3月)。合作式閱讀標註之知識萃取機制研究(未出版之碩士論文)。國立政治大學圖書資訊與檔案學研究所,臺北市。檢自:http://pulipuli.blogspot.tw/2011/06/blog-post_24.html
- 陳芳雅(2012)。不同合作模式對國小學童閱讀學習影響之研究(未出版之碩士論文)。國立政治大學圖書資訊學數位碩士在職專班,國立政治大學。上網日期:2013年11月24日,檢自:http://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=oi6WwU/record?r1=1&h1=0
- Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA Data Mining Software: An Update. SIGKDD Explor. Newsl., 11(1), 10–18. doi:10.1145/1656274.1656278
- Vygotskiĭ, L., & Cole, M. (1978). Mind in society: the development of higher psychological processes. Cambridge: Harvard University Press.
(more...)
Comments