圖資學中無形的基礎 / The Invisible Substrate of Information Science

布丁布丁吃布丁

3月 18, 2014 0 Comments 期刊論文閱讀課程/圖書資訊學研究趨勢

圖資學中無形的基礎 / The Invisible Substrate of Information Science

這是一篇課堂上的論文閱讀筆記，這篇是圖資學專家Bates的彙整論文，她侃侃而談圖資學的理論源流，是篇充滿啟發性的入門文章。

This is a course reading note. The author Bates is one of most important professional of Library & Information Science. She elucidated this disciplinary’s paradigms and theories. I very recommand newbie to read this article.

書目 / Bibliography

Bates, M. J. (1999). The Invisible Substrate of Information Science. Journal of the American Society for Information Science, 50(12), 1043-1050. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&db=bth&AN=2365455&lang=zh-tw&site=ehost-live

筆記下載 / Note Download

摘要 / Abstract

圖書資訊科學(information science，早期是指資訊科學，我以現在泛用的圖資學代稱)中詳盡且傑出的典範(paradigm)已經廣為人知且備受注目。然而，每個領域的研究者有時候並不見得察覺或思考過典範的內涵。
本文章旨在闡述圖資學那些不為人知的典範。
本文特別強調資訊科學係立於「元科學」(meta-science)的地位──研究與理論主要用於處理來自其他領域與活動所產生文件。
比起「得知」(knowing)的資訊，本領域專業實務的心態更傾向於主要環繞於資訊的「再現」(representation)與「組織」(organization)。
本文也討論了再現會受到不同專業領域的特質與技術而造成的差異，也分析了圖資學的研究方法與價值所在。

閱讀筆記 / Reading Note

Introduction [P.1]

很多資訊科學的研究燒了大把銀子，可是都在打造一些從1960年代以來就已經知道的事情。

要提高學科領域的成熟度，需要建立學科領域的典範 (field paradigm)

典範：核心理論 + 研究方法、從世界觀點到細微現象
圖資界重要的人物：Wilf Lancaster、Gerard Salton、Llewellyn C. Puppybreath III等等
此外還有很多典範是位於水面下 (below the water line)：不統一、未發表→無形的基礎

因此本文的目的就是介紹圖資學中無形的基礎

Paradigm Above the Water Line [P.1]

對於圖資學普遍的定義是：研究資訊的蒐集(gathering)、組織(organizing)、保存(storing)、檢索(retrieving)與散佈(dissemination)

這定義從1968年Harold Borko發表開始就沒什麼變動過

Information science is that discipline that investigates the properties and behavior of information, the forces governing the flow of information, and the means of processing information for optimum accessibility and usability.
資訊科學是一種探究資訊的屬性與行為的領域，致力於管理資訊的流動，最佳化資訊的處理與取用。
It is concerned with that body of knowledge relating to the origination, collection, organization, storage, retrieval, interpretation, transformation, and utilization of information.
資訊科學涉及書本知識的來源、蒐集、組織、儲存、取用、解釋、傳送、轉換與使用。
It has both a pure science component, which inquires into the subject without regard to its application, and an applied science component, which develops services and products (Borko, 1968, p. 3).
資訊科學既是一種純科學，探索學科主題而無關應用；也是一種應用科學，發展服務與產品。

Paradigm Below the Water Line [P.2]

The Meta-Field of Information Science 圖資學的高層領域

高層領域(meta-field)的學科：橫跨於傳統學科領域(conventional academic disciplines)之上。
- 圖資、教育、新聞
以不同角度傳播人類的知識

圖資：典藏資料的儲存與檢索
教育：教導與學習
新聞：發現與傳播新聞

Paisley將研究人類行為的學科領域分成不同層次

心理學(psychology)：個人層次
社會學(sociology)：團體層次
人類學(anthoropology)：文化層次

高層學科(meta-disciplines)的特色：

關注所有傳統學科內容，及其對於社會的價值
因為專業核心不同，高層學科皆有其獨特性

處理方式：

圖資：組織學科內容，以供檢索
教育：利用教學技巧，將知識傳達給學生
新聞：透過報導與撰寫技巧，傳播新聞

涵括知識：

圖資：各種保存的資訊
教育：課程
新聞：新聞報導

產出型態

圖資：篩選、索引
教育：選擇與組織資訊，用以教學
新聞：探索資訊以撰寫新聞

The Content of Form 形式的內涵

圖資學首重資訊的形式與組織，以及架構，內容則是其次。
大部分門外漢都不了解圖資研究形式與組織的本質，而這也是圖資往往讓人搞不懂的地方。
新進人員來到圖資，很快就會將焦點從學科內容(content)轉移到學科的形式(form)上。

Being and Representing 形式的呈現

圖資的專才與大部分傳統學科有所不同
呈現(representing)資訊跟知道(knowing)資訊是不一樣的：以演員與醫生為例，

醫生→傳統學科：考慮眾多醫學上問題，像是醫院、醫學、病患處理，但是不一定知道如何演出一齣好戲
演員→圖資：儘管醫學知識不多，但能夠確實呈現各種特色給觀眾

圖資學的呈現主要在於「資訊記錄的世界」(the universe of recorded information)

建立資料庫與目錄：呈現資訊的形式
參考館員與資訊專家：概念化與呈現讀者的問題，並轉化為查詢語句

Subject Expertise 圖資專業跟學科專家的不同

案例：國家醫學圖書館找醫生來編著資料庫的索引，但成效不彰。
要整理生物書籍需要生物領域知識，但最重要的還是圖書資訊相關的技術。
轉換：從學科專家到圖資專家

根據作者觀察，新進人員常常會遇到的困難，在於如何將資源的組織與檢索視為比了解內容還要重要
要處理資訊的組織與取用，必須成為圖資專家，而不是學科專家但缺乏圖資訓練

Librarianship and Information Science

大家對於資訊科學的定義很廣泛，普遍在於電腦科學、認知科學等等
但是圖書館學與資訊科學的結合越來越常見。
雖然圖書館學與資訊科學背景歷史，採用的研究方法與價值觀點也不一樣，但是共同處理著核心的資源。

Information Science Theory

1930年代的系統理論(systems theory)：系統可以視為多數的個別社會、技術與物理現象
1967年John von Neumann & Oskar Morgenstern發展博奕理論(game theory)，最著名的是囚徒困境(Prisoner’s Dilemma)

兩個囚徒被關在個別房間中，彼此不能交談
警方個別質詢
如果兩人都否定犯罪，則懲罰最輕
如果其中一人指認另一人，則被指認的懲罰最重，指認的人無罪開釋
如果兩人彼此指認，則兩人懲罰中等

1961年Norbert Wiener的場域控制論 (field of cybernetics)：許多系統不只是因為機制在運作，還會受到「回饋」(feedback)的影響。
1949年Shannon以電話線測量資訊量，這想法可用於測量科技或人類語言與心理
1971年Noam Chomsky提出語言語法架構，用來解釋不同語言的共通模式，促進語言心理學(psycholinguistics)的誕生
1972年Gregory Bateson探究學習架構的共通性，能夠讓人了解傳播的上層架構。對於精神分裂症最重要影響的「雙向束縛」(double-bind)也可以用於傳播與學習上。
1972年G. Spencer-Brown的Laws of Form分析了形式的功能基礎與獨立要素，
以上對於架構的認識越多，圖資的理論與實作的關係也就越密切。

Information Science's Universe 圖資學的世界

圖資學的主要目的之一，就是研究被記錄的資訊(recorded information)與人們之間的關係
Recorded Information universe 資訊記錄世界

包含了許多研究成果：熱門文獻、交易記錄、個人典藏、音樂、影片底片等等，以及現在的數位化版本
圖資學關注於人們如何製造(produce it)、找尋(seek it) 、取得(retrieve it)、使用(use it)

最純粹的資訊世界研究：書目計量學(bibliometrics)，或是以統計分析資訊記錄

Information Science's Big Questions

三大問題(Three Big Question)

實體問題：資訊記錄世界的特徵或是規律是什麼？
What are the features and laws of the recorded-information universe?
社會問題：人們如何牽連、找尋、使用資訊？
How do people relate to, seek, and use information?
設計問題：如何能讓取得被記錄的資訊更有效率？
How can access to recorded information be made most rapid and effective?

我們需要得知人們跟各種資訊之間的關係，以及他們的社會情境（問題2）。
使得我們可以根據對於問題1的理解，來回答問題3的答案。
被記錄的資訊(recorded information)：

通常能夠長期保存，因而會累積大量資料，成為圖資學主要的挑戰
不同時代的資訊量都會繼續往上提昇，因此需要發展出不同的取用方法。例如從主題詞表(subject headings)變成超連結(hyperlink)
而即使是新的媒體或技術，也需要結合圖資學悠久的知識，來製作有效的資訊系統

Methodological Substrate 研究方法上的基礎

圖資學的研究方法來自於兩個領域：社會科學(social sciences)與工程科學(engineering sciences)，最好是兩者兼具

例如電腦科學家，但是注重資訊檢索系統的語言學或是心理焦慮議題
例如對於科技感興趣的社會科學家

圖資學是個多才(multitalented)的領域，也因此並不會有統一的研究典範

圖資學研究者偏好使用混合研究法來解決問題

不同問題有不同的研究方法

問題1 資訊記錄世界：採用書目計量技術、統計、哲學分析(philosophico-analytic
問題2 資訊尋求行為：採用社會科學技術，從量化(問卷)到質性(訪談)
問題3 資訊檢索技術：最好採用工程科學的形成性評估(formative evaluation)，驗證小問題之後再改善到資訊檢索系統上。

Values

圖資學的價值傾向於「價值中立」科學(“value neutral” science)或是工程模型

強調把事情做好，而不考慮政治或其他目的
最純粹的圖資學注重找尋真理，可以不顧個人情境而應用在大多情境底下

圖書館學(librarianship)則是相反，注重服務導向以及加值系統

產生某種需要的社會性成果，以符合某些特定價值的目標
因此不同國家的圖書館會有不同的差異

作者認為圖資學還有一種特色：a sense of humor

研究者們會嘲笑自己，但是也會持續投身在研究之中

心得

Bates的三大問題以及各自的研究方法，可以給圖資人對於自己學科有著更清楚的認識。

奇怪的是，這種說法似乎不太盛行？

圖資、教育與新聞傳播同屬於具有特色的高層領域，因此我們值得從教育、新聞傳播來借鏡

(more...)

JavaScript的字串壓縮函式庫：lz-string

布丁布丁吃布丁

3月 16, 2014 0 Comments 程式語言/JavaScript 程式寫作 Programming/JavaScript

JavaScript的字串壓縮函式庫：lz-string

在JavaScript應用程式開發中，我們時常使用AJAX傳送字串資料給伺服器或儲存在本機瀏覽器。當資料量過大時，可以考慮使用JavaScript字串壓縮函式庫lz-string來大幅度降低字串資料的體積。

In JavaScript application, we usually send string data to server by AJAX or store string in local web storage. If string data size is over the storage size limit, we could use a JavaScript string compress library “lz-string” to reduce stored string size.

適用情境 / Problem Context

壓縮字串資料量 / Compress String Size

最近我在研究改進KALS系統效率的方法。KALS在使用JavaScript計算瀏覽器上的標註位置時會耗費大量時間，如果能將運算結果以快取的形式儲存起來，那麼下次直接載入快取將可以節省大量的時間。

可是問題是瀏覽器端的儲存空間不大，cookie只有4K、Local Web Stroage(HTML5的新特性)只有5MB、Chrome Plugin不考慮。PHP的session一次最多可以存取128MB，但是要跟伺服器存取就很沒效率。

這時候就很適合使用lz-string壓縮字串，將資料量大幅縮小之後再儲存了。雖然就長期來看，如果運算結果變多了話，即使壓縮之後還是會有超過儲存上限的時候，不過那就是另外的議題了。

資料加密 / Encryption

另一種適用情況是加密資料。對網頁開發者或是初級駭客來說，有很多方式可以看到儲存在Cookie、Session、Local Strorage的資料，還有擷取與遠端伺服器溝通的資料（當然，這也包含了密碼）。藉由分析這些資料，我們可以輕易地了解遠端系統的資料架構。接下來就可以無視客戶端的操作介面與驗證程序，直接傳送我們想要的資料給伺服器。

以前在Facebook上的一款遊戲WarStorm就是採用明碼以XML跟伺服器傳送資料，讓許多玩家介入製作取代原本遊戲介面的機器人，降低手動遊玩所耗費的時間。這件事情讓我印象深刻，也對我後來進行程式設計的安全性上多了份考量。WarStorm後來將XML的資料全部加密，阻止玩家製作的機器人參與遊戲，不過卻造成遊玩人數大量流失，過不久就關閉了整個遊戲了。

話說回來，資料加密的方式其實還蠻多種的。除了單純到稱不上加密的escape()、encodeURI()、encodeURIComponent()自然不說，加密時常見的是md5演算法，而這個lz-stirng儘管效率較差，但是卻兼顧了壓縮與加密兩種特性。

總之，使用lz-string字串壓縮函式庫可以帶來的好處有兩個：

壓縮資料量
加密資料

缺點是需要耗費額外的運算時間，但這個缺點在可以節省資料傳輸與儲存等好處相較之下就顯得不是這麼重要了。

LZW演算法 / LZW Algorithm

lz-stirng使用的壓縮演算法是基於LZW。根據Wikipedia對LZW的介紹如下：

LZW（Lempel-Ziv-Welch）是Abraham Lempel、Jacob Ziv與Terry Welch提出的一種無損數據壓縮演算法。它在1984年由Terry Welch改良Abraham Lempel與Jacob Ziv在1978年發表的LZ78的版本而來。這種演算法的設計著重在實現的速度，由於它並沒有對數據做任何分析，所以並不一定是最好的演算法（參考LZMA，LZ77）。

lz-string再根據JavaScript的使用情境作最佳化，最後完成了這個函式庫。在運作效率上，lz-string跟LZMA作了一些比較，在資料長短不同的測試案例下，壓縮率與運算時間皆有勝有負。不過我不是很在意這些細節就是，能用就好了XD

使用lz-string / lz-string Usage

使用方式很簡單：1. 引用lz-string；2. 使用compress壓縮資料；3. 使用decompress解壓縮資料，以下是引用lz-string的使用介紹：

下載lz-string的JavaScript檔案。作者的主要存放處是GitHub。我備份了一份最新版本的lz-string-1.3.3-min.js到Box.net。
在網頁中引用lz-string。注意以下紅字的部份，請寫入lz-string的正確網址
<script language="javascript" src="lz-string.js"></script>
接下來就能夠在JavaScript中使用lz-string韓式庫。主要用法是壓縮compress跟解壓縮decompress兩種：
var string = "This is my compression test."; alert("Size of sample is: " + string.length); var compressed = LZString.compress(string); alert("Size of compressed sample is: " + compressed.length); string = LZString.decompress(compressed); alert("Sample is: " + string);

有興趣的人可以先玩玩看lz-string的線上展示頁面。

lz-string是針對localStorage最佳化，對於傳送資料給遠端伺服器來說就不是這麼合適。這時候要改用compressToBase64()與decompressFromBase64()。不過作者也提示了這兩種方法實際上並沒有進行壓縮，只是編碼而已。使用上可能還需要多多注意一下。

下一步 / Next

我嘗試在系統中使用lz-string壓縮資料，並驚嘆於lz-string的壓縮成果，所以才想要寫一篇來介紹一下這好用的壓縮資料庫。

在目前為止，我使用lz-string主要都是用於將資料儲存在localStorage。但是當資料量大到連lz-string壓縮之後都無法儲存的話，我就得轉個方向來思考了。下一步我可能會嘗試將快取資料儲存在伺服器端，並以lz-string壓縮資料以節省網路傳輸量。如果有什麼進度再來跟大家分享。

(more...)

檔案員2.0: 重新定義數位時代的檔案館員專業 / Archivists 2.0: redefining the archivist's profession in the digital age

布丁布丁吃布丁

3月 15, 2014 0 Comments 期刊論文閱讀課程/國際檔案學

檔案員2.0: 重新定義數位時代的檔案館員專業 / Archivists 2.0: redefining the archivist's profession in the digital age

這是課堂的導讀筆記。此研究訪談了9位e政府最佳服務轄區中的檔案館員，綜合他們對於檔案館員專業與因應電子文件時代所需的意見，最後發現館員仍以紙本檔案為主，缺乏相關技能與資源，而且對於發展e政府的影響力不大。

This is a course reading note. This research interviewed nine municipality archivists at different Swedish municipalities indentified by the Swedish Association of Local Government and Regions as “good example” e-government municipalities. Author summarized their definition for archivist professional role and the challenges brought by the change from paper-based to electronic recordkeeping brings. The result shows that several interviewees still preferred paper-based archives, lacked in resources and skills about auditing, and had not any major influence on strategies for e-government development.

書目 / Bibliography

Kallberg, M. (2012). Archivists 2.0: redefining the archivist’s profession in the digital age. Records Management Journal, 22(2), 98-115. doi:10.1108/09565691211268162

筆記下載 / Reading Note Download

Google Drive

筆記內容如下。

摘要 / Abstract

研究目的：

公共機關正朝向數位化政府(e-government)發展，並以數位化服務(e-services)改善與市民的互動與服務。檔
案員(archivist)需要更加積極去取得與管理文件(record)，以確保現行流通與長期保存的可行性。
檔案員需要了解現今情勢與文件產生流程的概念。

此研究的研究問題如下：

在公共機關中，檔案員的專業地位與業務運作為何？
從紙本到電子文件的轉換是否影響檔案館員的專業地位與業務運作？
檔案員如何定義自己的專業角色，像是檔案鑑定(identity)？
對應電子文件管理的新需求來說，有什麼關鍵議題是需要解決的嗎？
檔案員如何定義他們的技能與工作成效？

研究方法：

這份研究採用了文獻分析法與訪談法(文中寫emiprical study，但是實際採用的是interview)。
文獻主題含括了檔案專業實務與未來定位。
訪談法的對象係獲得瑞典地方政府與區域聯合(Swedish Association of Local Authorities and Regions)最佳數位化政府認證的九位不同轄區的市立檔案員。

研究發現：

研究發現揭露了檔案員如何定義檔案員的現在與未來隨著機關資訊技術演進的角色：包括檔案員的專業地位與在地方機關中的業務。
研究結果也拓展了電子文件管理策略的重要性──從文件建立到保存，包括長期保存──並且探討檔案員專業形象轉型與需求的技能。

研究貢獻：

本研究對於面臨數位化政府轉型的檔案保存實務工作者相當有啟發性，同時也有助於地方政府教育訓練者認識轉型所需要的知識與技能。

閱讀筆記 / Reading Note

1. Research Methodology [P.4]

本研究採用的是文獻分析與實徵研究法。

文獻分析法：

文獻分析法係選自專業期刊中與數位化政府與數位化服務發展下檔案員的專業挑戰等相關主題，含括檔案員的專業實務與未來角色。
根據文獻分析結果中對於國家管理與法律等議題，作為設計半結構訪談問卷的依據。

實徵研究訪談法：

實徵研究係基於訪談位於瑞典不同市區的九位市立檔案員，以探討電子文件保存下檔案館員的專業挑戰。
這九個市區皆是瑞典地方政府與區域聯合(Swedish Association of Local Authorities and Regions)認證的數位化政府服務最佳示範。
訪談期間是在2011年1月至3月之間，每位訪談者長度介於37分鐘到60分鐘之間。
訪談時搭配使用半結構問卷。

2. Literature Review [P.5]

由於紙本到電子文件的轉型，檔案員需要了解電子文件的產生脈絡，並考量如何管理、維護與保存。
Runardotter (2007)發現檔案員很少介入科技，因為機關政策仍以紙本為主。
McDonald(2010)認為檔案館員有必要參與電子文件系統的轉型。
2002年英國研究發現地方檔案管理局缺乏數位化管理資源與專家。

3. 半結構訪談大綱 [P.18]

1. 背景調查

職稱？
年資？
學歷？
服務單位？
經歷？

2. 專業實務：業務(Duties)

您的業務範圍是？
其中最重要的業務是？
集中登記機制(centralized registrar function)的建立是否影響到您的專業？
文件(record)管理與檔案(archive)管理是否有所不同？
登記員(registrar)與檔案館員的專業之間有何關係？
登記員與檔案館員之間的專業領域是否有所重疊，如果有的話，那會是哪哪些？
您如何定義您的專業？

2. 專業實務：檔案稽核(Auditing)

轄區內使用電子文件來作為檔案管理的方式，到何者程度？ (To what extent does the Archival Authority audit other authorities within the municipality regarding electronic recordkeeping?)
誰負責這個檔案稽核工作？

3. 電子文件保存

您有使用電子文件保存政策嗎？例如流程對照(mapping processes)、業務流程發展(business process development)等。
您有參與任一進行中的計畫或是政策發展小組(strategic development group)嗎？
如果有的話，政策發展小組中其他的專業領域有哪些？
電子文件保存的實施是否影響您的業務，如果有的話，是如何影響？
您轄區內電子文件的檔案授權與其他授權方式是否有建立清楚的職責分區？
您轄區內有用到以下標準嗎？ISO 15489(records management), ISO 23081 (metadata), ISO 26122 (work-processes)與ISO 14721 (OAIS, Open Archival Information System)
如果有的話，請問是如何使用的？
如果沒有的話，為什麼不使用呢？
請問您是否有根據ISO 14721 (OAIS)建立電子文件長期保存解決方案、策略、或願景？

4. 技能發展 / 未來專業檔案館員的角色

請問您有學習技能的需求嗎？如果有的話，請問是哪些技能？
您覺得檔案館員專業發展與電子文件保存之間有何關係？
您對未來檔案館員專業發展有何看法？

5. 請問還有要補充的地方嗎？

4. Interview Result [P13]

未來法律方面的知識會更加重要。
受訪者認為工作最大的問題是缺乏資源，像是參與業務發展計畫、流程對照(mapping processes)與系統採購。這結果跟英國調查很像。
受訪者偏好使用紙本檔案，因為電子文件未被納入長期保存政策。
檔案稽核很重要，但大部分受訪者不知道如何進行，缺乏相關技能與資源。因此即使有機會也不會去做。
檔案員未來重要技能主要是長期保存與法規議題(legislation)上。
因應電子文件需求，未來檔案員需要與科技專家合作的面向包括：概念化建模(=知識組織)、傳播策略(communication strategies)、運作流程發展、管理、通訊(communication)、行銷

5. Conclusions [P.15]

本研究印證了Scandinavia的「全面觀點」(holistic view)，認為檔案學應該兼顧資訊科學。
研究結論發現檔案員需要許多技能與資源，以及更高水準的教育，以支持研究與強化檔案員專業。
檔案員對於數位化政府發展的影響力相當微弱，如果仍固執於保存紙本歷史文件，那檔案館員可能會被其他專業取代。
檔案員應主動爭取檔案稽核的執行，並加強相關的技能與資源。

心得

很難得看到一篇檔案相關的reading是以實徵研究的方式進行

因為比較可能會跟畢業論文相關，所以看實徵研究有助於論文進行
可以了解一下期刊發表願意接受的程度為何
不過研究方法仍侷限於問卷、訪談、焦點團體、疊慧法之中的一種。

訪談法中，訪談大綱決定訪談是否成功相當大的因素，並且基於此設計問卷進行大規模調查。

如果將此份訪談大綱來訪問國內檔案員的情況，是否可以發展成畢業論文的一環。

結論本身並不太讓人意外，不過取樣數量不多不具代表性這點，也令人難以放心地接受這些結論。

最令人困擾的大概就是標題與內容不符，標題是期待看到檔案館員在數位化衝擊下的影響，不過訪談結果不是不知道標準是啥，就是「有採用標準」這樣簡單的回應

比起這樣草草地看到一些問題，我覺得如果有成功應用電子文件的個案細節，應該對於檔案員發展相關專業比較有幫助。

舉例：某國內數位化政府法規 + 比對現行法規推測可能的影響 + 國外相關法規的個案分析 + 從個案分析中擷取建議（ex: 檔案員應該獲取更多資源與訓練）→ 發表

法規通常是實務工作者關心的議題，我個人比較關心的是運作流程改造的管理問題

從本文中可以發現作者的立場是被動的：數位化政府與數位化服務是因應上級指示才進行修改
比起有無技術或是資源，更根本的問題是心態上：檔案員對於數位化政府與服務的了解有多深入？對於檔案稽核的重要性理解程度為何？
然而大家是依法行事，不論是上級單位法規制定不良還是下級執行者能力不足，調查來調查去若祇是責任互踢皮球，那研究結論也看起來挺乏味的
還是認真地規劃、仔細評估最佳實務實行方式吧

(more...)

合作式數位閱讀之標註路徑探勘 / Ming Annotation Path in Cooperative Reading

布丁布丁吃布丁

3月 12, 2014 0 Comments 作業報告課程/計算智能與商業分析 KALS

合作式數位閱讀之標註路徑探勘 / Ming Annotation Path in Cooperative Reading

這是一篇課堂期末報告，我利用Weka的全域循序樣式演算法(Generalized Sequential Patterns, GSP)去探勘KALS標註系統底下的閱讀路徑。報告內容含括了投影片與報告文章。

This is a course final report. I use Weka’s algorithm “Generalized Sequential Patterns” (GSP) to discover the annotation path in KALS's cooperative reading. This article includes my full report and slide.

檔案下載 / Report Download

報告檔案下載：Google Drive、One Drive、Box.net
投影片檔案下載：Google Drive、One Drive、Box.net

以下是報告的內文。

壹、緒論

隨著資訊時代的來臨，圖書館典藏的館藏資料也從傳統紙本圖書逐漸加入了電子書的類型。電子書係以數位資料方式儲存，可透過電腦、平板電腦、電子書載具等數位設備來閱讀。與紙本圖書相比，電子書具有容易借閱、輕便攜帶等特色。被稱為「原生數位民族」的現代人來說，電子資源的使用與電子書的閱讀已經逐漸普及。謝建成與趙素貞在2009年調查中部某大學圖書館的電子書採購與使用狀況中發現，讀者使用NetLibrary電子書的次數已經從2002年的262次逐漸增加到2006年的8432次（如圖 1所示）。為了因應逐年上升的電子書使用量，該大學的電子書採購量也從2005年的359冊大幅上升到2006年的5358冊（如圖 2所示）。可見圖書館同樣重視電子書閱讀的需求。

圖 1 某大學圖書館2002至2006電子書使用次數

註：「大學圖書館電子書使用效益之研究」，謝建成、趙素貞，2009，圖書資訊學研究，3（2），25–54。

圖 2 某大學圖書館NetLibrary電子書訂購冊數

註：「大學圖書館電子書使用效益之研究」，謝建成、趙素貞，2009，圖書資訊學研究，3（2），25–54。

然而，這份調查研究將電子書的使用情形與紙本圖書相互比較，卻發現讀者仍偏好使用紙本圖書，使用率甚至多達電子書的2.3倍。如圖 3所示，不論是任何分類的書籍上，紙本圖書的使用次數都較電子書為多。儘管謝建成與趙素貞的研究僅止於量化統計調查，並未研究結果造成的原因有進一步的質性探討，但這份研究結果依然透露出以下幾種可能性。舉例來說，電子書的收錄數量仍不及紙本圖書之多。對於找尋特定主題的讀者來說，除了紙本圖書之外別無選擇；另一方面，目前的電子書操作介面，往往如圖 4所示，著重於與紙本圖書相同體驗的排版、翻頁、以及標註畫記等功能上。對於原本就已經熟悉紙本圖書閱讀方式的讀者來說，電子書除了攜帶輕便之外，仍缺乏能夠助於讀者加深閱讀理解的關鍵閱讀輔助功能。

圖 3 某大學圖書館2002至2006紙本圖書與電子書使用情形比較

註：「大學圖書館電子書使用效益之研究」，謝建成、趙素貞，2009，圖書資訊學研究，3（2），25–54。

圖 4 電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0

註：「電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0」，台灣水鳥研究群彰化海岸保育行動聯盟，2007年1月4日，Flickr – 相片分享！。上網日期：2014年1月19日，檢自：http://www.flickr.com/photos/waders/345466812/

電子書的優勢不只是數位化資料容易攜帶，更重要的是，電子書能夠詳細記錄讀者的閱讀行為，更進一步地整合多位讀者的閱讀行為資料進行分析，並結合數位學習的閱讀輔助策略機制，讓讀者在閱讀過程中能夠應用合適的閱讀理解策略，據此提昇閱讀理解的層次。因此，為了探究電子書在閱讀輔助機制上的可能性，本研究嘗試以多位讀者在同一份電子書閱讀文本上的閱讀標註為資料來源，應用Srikant與Agrawal(1978)提出的全域循序樣式(Generalized Sequential Patterns)資料探勘演算法，找尋多位讀者在同一份閱讀文本中共通的閱讀標註序列，作為下一步發展「合作式閱讀標註」（陳勇汀，2011）輔助機制的基石。

貳、研究方法

一、研究對象

本研究係基於陳芳雅於2012年在桃園縣一所國民小學以五年級學生針對電子書閱讀文本進行合作式閱讀標註的閱讀資料進行分析。實驗參與者總共28人，皆具備足夠的資訊素養，能夠於電子書上進行合作式閱讀標註。本研究採用的電子書為「國際閱讀素養調查」（Progress in International Reading Literacy Study,簡稱PRILS）發展適合國小四年級學生為主要閱讀對象之教學實驗所用的閱讀範文「小海鸚鵡之夜」，閱讀難度上也適用於本研究之國小五年級學童。實驗期間所有28位實驗參與者共畫記了661份標註，本研究即以此作為探勘閱讀標註序列的研究對象。

二、 KALS知識標註學習系統

本研究中讀者在電子書進行合作式閱讀標註的閱讀系統為KALS知識標註學習系統(Knowledge Annotation Learning System)。此一系統為陳勇汀（2011）所發展之應用於HTML網頁電子書上的閱讀標註系統。KALS不僅可讓靜態的HTML網頁具備能夠針對文字內容進行標註的標註撰寫機制（如圖 5所示），也能夠讓讀者針對閱讀文本內容進行討論（如圖 6所示）。

撰寫標註的功能方面，讀者可以自由選擇閱讀文本上的範圍文字(anchor text)，針對該範圍的文字撰寫標註。讀者除了撰寫豐富本文(rich text)的HTML註解(note)之外，還能夠為標註選擇推論、辨析、連結、摘要、提問、字詞解釋、其他等7種不同的標註類型鷹架，作為輔助讀者有效進行閱讀的輔助策略。

圖 5 KALS撰寫標註示意圖

在基於標註的討論功能上，如圖 6所示，讀者可以針對文中特定段落進行討論。討論功能類似一般常見的討論區，讀者可以針對其他讀者的發言進行回應，而回應時讀者也可以選擇推論、辨析、提問、釋疑、偵錯、其他等6種不同類型的標註討論鷹架，輔助讀者進行有效的合作討論。

圖 6 KALS基於標註進行討論的示意圖

參、閱讀標註序列探勘機制

28位實驗參與者利用KALS知識標註學習系統在「小海鸚鵡之夜」電子書閱讀文本上進行合作式閱讀標註，而本研究即以此實驗結果所撰寫的661標註發展閱讀標註序列探勘機制。以下依序說明閱讀標註序列探勘機制發展架構。

一、資料處理

本研究欲針對661份閱讀標註所針對的範圍位置進行循序樣式探勘。由於每份標註所針對的閱讀標註位置皆有所差異，若以原始範圍位置直接進行循序樣式探勘，將難以找到大部分讀者皆相同的閱讀標註循序樣式。因此本研究不以讀者所標註之原始閱讀範圍，而是將範圍擴大到以句子為單位來進行循序樣式探勘。

舉例來說，本研究以句號、分號等標點符號為依據，將該閱讀文本分成60句子。其中編號3的句子內文如下：

「在冰島這個國家的一座希米島上，一群橘紅色嘴巴、黑白色羽毛的鳥兒每年都會來訪。這些鳥被稱為『海鸚鵡』。」

其中實驗參與者編號722所撰寫的標註位置落於「橘紅色」三個字中，位於編號3句子裡，因此本研究將之視為編號722實驗參與者標註序列包含編號3的句子。

經過此資料分析，28位實驗參與者皆有其閱讀標註所在句子的編號，再依照標註撰寫時間的順序組合成閱讀標註序列。舉例來說，編號518實驗參與者的序列即為「0, 5, 11, 43, 39, 40, 4, 47, 45, 23, 25, 37, 7, 54, 44, 3, 36」，其中逗號為區隔不同句子編號的分割單位。再來將之轉換為能在Weka中進行全域循序樣式探勘的ARFF檔案格式（如圖 7所示），如此便能夠進行下一步的循序樣式探勘。

@relation annotation @attribute 0 {1914,1911,1922,1908,1910,1923,1904,1913,1900,1896,1906,1920,1918,1909,1921,1899,1901,1917,1912,1895,1898,1905,1916,1903,1919,1915,1897,1907,1894} @attribute 1 {6,44,39,25,28,3,35,36,53,2,22,9,8,11,19,26,32,38,7,23,34,43,52,12,45,17,5,15,47,13,0,21,14,37,18,40,24,27,4,54,16,58,51,41,46,29,56,42,31,1,33,10,48,30,49} @data 1914,6 1914,44 1914,39 1914,25 1914,28 1914,3 1914,35 1914,39 1914,36 1914,53 1914,2 1914,22 1911,9 1911,8 1911,11 1911,19 (以下省略)

圖 7 閱讀標註序列的ARFF檔案摘錄

二、循序樣式探勘

(一) 全域循序樣式演算法

本研究Srikant與Agrawal(1978)提出的全域循序樣式(Generalized Sequential Patterns，簡稱GSP)資料探勘演算法來分析讀者在電子書上進行閱讀標註的共同循序序列。GSP演算法係一種關連式規則的資料探勘演算法，用於發掘多位讀者各自進行的閱讀標註位置中順序相同的共同循序序列。根據Srikant與Agrawal實證比較，GSP的效率比起傳統用於循序序列探勘的Apriori All演算法還要更高，而且也能夠輕易應用於大量資料之中。

(二) 資料探勘工具Weka

本研究採用Weka來實作GSP演算法。Weka (Hall et al., 2009)係紐西蘭懷卡託大學(the University of Waikato)的機器學習小組(Machine Learning Group)以Java發展的資料探勘工具。Weka支援分類、分群、關連式規則等三大類資料探勘的演算法，而GSP則是屬於關連式規則中的演算法之一。受惠於Java具備的跨平台通用的特性，Weka支援以命令列(command line)的形式進行操作。本研究即是透過命令列將KALS的資料輸入Weka、設定GSP演算法與參數，再取得Weka的分析結果，以作為KALS展示讀者閱讀標註序列的探勘結果。

(三) 最小支持度門檻參數設定

使用GSP進行資料探勘時，必須輸入如圖 7所示之每位讀者的閱讀序列，此外還必須設定最小支持度門檻(minimum support threshold)的參數。最小支持度門檻係指全部序列中包含此序列的最小比例，介於1至0之間，本研究將此參數預設為0.5。舉例來說，若最小支持度門檻設為0.5，意思即為28人中至少14人同樣具備同樣序列，才會被GSP列為候選序列。而候選序列中長度最長的序列則會被本研究作為閱讀標註候選序列。

最小支持度門檻越高，代表GSP找出的閱讀標註候選序列代表性越高，但是也因此較難找出較長的共同循序序列；反過來說，若最小支持度門檻越小，則越容易找出較長的閱讀標註候選序列，但相對地代表同樣出現一樣序列的讀者人數越少，代表性也越低。要如何取得閱讀標註候選序列的長度與代表性的平衡，是發展閱讀標註序列探勘機制的重要議題。

(四) 最小序列長度參數設定

由於本研究欲發展之閱讀標註序列的目的著重於輔助讀者閱讀，必須提供足夠長度的序列作為讀者的參考資料，因此本研究另外加入最小序列長度參數來動態降低最小支持度門檻。最小序列長度係閱讀文本的句子總數的1/5取整數，以本研究採用的「小海鸚鵡之夜」共60句為例，最小序列長度即為12句。GSP探勘結果的閱讀標註序列長度必須於最小序列長度以上，才會被作為閱讀標註序列的最後結果。為此，GSP的最小支持度門檻將會依據最小序列長度進行動態的調整。

本研究在以GSP探勘循序序列時預設採用的最小支持度門檻為0.5，若探勘結果的閱讀標註候選序列長度未達最小序列長度，則降低最小支持度門檻0.05後重新計算，直到閱讀標註候選序列等於最小序列長度，或是在最小支持度門檻低於0.05的時候，將最後取得的閱讀標註候選序列作為閱讀標註序列的最後結果。

此外，為了避免計算次數過多導致伺服器負荷過大，本研究為GSP計算結果進行快取(cache)，設定快取保留時間為30分鐘。換句話說，30分鐘內取得的閱讀標註序列結果皆會來自同一快取，即使其他讀者新增額外的標註也不會立即改變閱讀標註結果，直到30分鐘後重新計算才會顯示出改變。

肆、研究成果

本研究將GSP的探勘結果實作為KALS知識標註學習系統中的「導讀」(reading guide)功能，如圖 8所示。最後探勘共得到了六個序列的句子，依序為：

在冰島，「倫迪」的意思就是「海鸚鵡」。
從今晚開始，連續兩個星期，海鸚鵡將會離開並到海上過冬。
當她站在懸崖高處瞭望海洋時，她發現了當季的第一隻海鸚鵡。
在這兩個星期中，所有希米島上的孩子白天都可以睡很晚，這樣到了夜晚他們才能夠外頭活動。
當她站在懸崖高處瞭望海洋時，她發現了當季的第一隻海鸚鵡。
牠們的身軀矮胖、翅膀短小，使得牠們在起飛和降落時動作很不靈敏。

讀者可以利用導讀功能中的「下一步」讓KALS一步一步帶領讀者進行閱讀，藉由比較自己的閱讀標註與本研究探勘出的閱讀標註序列路徑的差異，以此反思自己對此文本的閱讀方式。

圖 8 閱讀標註序列探勘結果

根據分析探勘結果的六個句子，可以發現探勘結果中的3與5是屬於同一句，代表讀者在閱讀完之後仍有回頭閱讀開頭的跡象；而這六個句子並非按照閱讀文本的先後順序依線性呈現，而且每一句的間隔位置不一，句子之間也沒有明顯的規律。這個探勘結果發掘出了與傳統認知的常識不同的序列，而有別於一般閱讀教學的內容，因此透過GSP探勘閱讀標註序列具有繼續發展的潛力。

伍、結論與未來發展

本研究以全域循序樣式(Generalized Sequential Patterns，簡稱GSP)演算法探勘28位讀者在同一份閱讀文本上進行閱讀標註的序列。根據動態調整GSP最小支持度與限制最小序列長度的設定之下，最後探勘結果呈現出位於閱讀文本之不同的先後順序、難以看出規律的6個句子。由於探勘結果有別於傳統閱讀教學教師所教導之閱讀策略，透過GSP的閱讀標註序列探勘可提供另一種閱讀教學策略的發展依據。未來研究應繼續深入探究將GSP探勘之閱讀標註序列應用至閱讀輔助機制的策略，或是依據標註類型、讀者閱讀理解能力的高低來動態調整閱讀標註序列的結果，最後發展出能夠活用合作式閱讀標註之巨量資料(big data)的閱讀輔助機制。

參考文獻

台灣水鳥研究群彰化海岸保育行動聯盟（2007年1月4日）。電子書製作閱讀軟體 Ebook create and reading software: e-READ 3.0。Flickr – 相片分享！。上網日期：2014年1月19日，檢自：http://www.flickr.com/photos/waders/345466812/
謝建成、趙素貞（2009）。大學圖書館電子書使用效益之研究。圖書資訊學研究，3（2），25–54。上網日期：2014年1月16日。
陳勇汀（2011年3月）。合作式閱讀標註之知識萃取機制研究（未出版之碩士論文）。國立政治大學圖書資訊與檔案學研究所，臺北市。檢自：http://pulipuli.blogspot.tw/2011/06/blog-post_24.html
陳芳雅（2012）。不同合作模式對國小學童閱讀學習影響之研究（未出版之碩士論文）。國立政治大學圖書資訊學數位碩士在職專班，國立政治大學。上網日期：2013年11月24日，檢自：http://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=oi6WwU/record?r1=1&h1=0
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA Data Mining Software: An Update. SIGKDD Explor. Newsl., 11(1), 10–18. doi:10.1145/1656274.1656278
Vygotskiĭ, L., & Cole, M. (1978). Mind in society: the development of higher psychological processes. Cambridge: Harvard University Press.

(more...)

解決WordPress User-Avatar外掛無法連結的問題 / Solution for WordPress’s Plugin User-Avatar Error

布丁布丁吃布丁

3月 12, 2014 0 Comments 系統/WordPress 程式寫作網站服務 Software/WordPress

解決WordPress User-Avatar外掛無法連結的問題 / Solution for WordPress’s Plugin User-Avatar Error

最近我將WordPress掛載NFS之後，WordPress的外掛User Avatar就無法順利運作。原因是因為timthumb縮圖程式無法寫入暫存檔案，修改程式碼之就能解決問題。

Recently, I try to integrate NFS with WordPress’s upload directory, and then the plugin User-Avatar got broken. This problem is due to thumb program “user-avatar-pic.php” could not write lock files. I modified this program to solve it.

問題敘述：縮圖程式錯誤訊息 / Problem Description: TimThumb Error

WordPress與外掛User-Avatar / WordPress’s Pluging User-Avatar

我目前使用的WordPress與外掛User-Avatar版本資訊如下：

User Avatar是允許讓使用者自行上傳大頭照的外掛，簡單好用。

uploads資料夾掛載到NFS / Mount “uploads” Directory to NFS

最近我將WordPress存放附件檔案的資料夾uploads改掛載到NFS底下。具體來說是資料夾路徑是：

[WordPress]/wp-content/uploads

圖片無法讀取 / Could Not Load Image

掛載之後，附件大多都能正常下載，可是卻發現圖片無法讀取的問題。

上圖紅框的部份可以看到，應該出現作者大頭像的地方卻沒有顯示了，非常奇怪。

直接打開網址之後，就發生了錯誤訊息：

   A TimThumb error has occured
 The following error(s) occured:          Could not get a lock for writing.
   
    
Query String : src=http://********/wp-content/uploads/avatars/46/1371804156-bpfull.jpg&w=75&id=46&random=1392976007    
TimThumb version : 2.8.10

問題剖析 / Problem Analysis

簡單來說，是程式碼中有些段落發生了無法順利寫入的問題。發生錯誤的程式碼是外掛User-Avatar的user-avatar-pic.php，檔案路徑如下：

[WordPress]/wp-content/plugins/user-avatar/user-avatar-pic.php

根據錯誤訊息「Could not get a lock for writing.」，我們可以找到發生錯誤的程式碼，以及回溯到前面開啟檔案的相關程式：

     $lockFile = $this->cachefile . '.lock';

    $fh = fopen($lockFile, 'w');

    if(! $fh){

        return $this->error("Could not open the lockfile for writing an image.");

    }

    if(flock($fh, LOCK_EX)){

        @unlink($this->cachefile); //rename generally overwrites, but doing this in case of platform specific quirks. File might not exist yet.

        rename($tempfile4, $this->cachefile);

        flock($fh, LOCK_UN);

        fclose($fh);

        @unlink($lockFile);

    } else {

        fclose($fh);

        @unlink($lockFile);

        @unlink($tempfile4);

        return $this->error("Could not get a lock for writing.");

    }

注意紅字的第一行。這一行是指定寫入檔案的路徑，顯然地目前這個路徑設定是不可寫入的。要確保暫存檔能夠正常寫入，一般來說都是寫在暫存目錄底下。PHP取得暫存目錄並在之中產生暫存檔案的作法是用tempnam(sys_get_temp_dir(), 'FOO')，因此程式碼應該替換掉第一行變成：

    //$lockFile = $this->cachefile . '.lock';

    $lockFile = tempnam(sys_get_temp_dir(), 'timthumb') . '.lock';

這樣子就能夠讓網頁正常顯示了。

解決方案：替換user-avatar-pic.php / Solution: Replace file “user-avatar-pic.php”

以下講述簡單的作法：

下載user-avatar-pic.php (我已經上傳到GitHub)
替換掉原本檔案，路徑是「[WordPress]/wp-content/plugins/user-avatar/user-avatar-pic.php」

這樣就完成了。

(more...)

木柵市場的炒麵味噌湯

布丁布丁吃布丁

3月 08, 2014 0 Comments 生活/政大平價美食

木柵市場的炒麵味噌湯

店名：不清楚（我擅自稱之為炒麵味噌湯）
位置：木柵市場保儀路與保儀路13巷的角落
菜單：湯、麵飯、配菜
價位：湯15~20元，其他30~40元
座位：只有一張桌子，大概6個人就很擠了

簡介

前往政大的公車大多數都會經過木柵市場，而炒麵味噌湯就坐落於木柵市場公車站的斜對面角落。距離政大有點遠，通常是騎摩托車才比較能夠抵達，現在也許可以騎Ubike過去了。

這家傳統攤販沒有店名招牌，從外面看只知道是賣甜不辣、臭豆腐的一家小小攤販。由於我因為很喜歡吃他們家的炒麵味噌湯，於是就擅自將之命名為炒麵味噌湯。

店內的用餐空間只有一張桌子，桌子圍一圈大概坐個6個人就滿了，非常地擁擠。儘管這家店距離政大有點距離，很少看到會有學生出現，但相反地卻因為鄰近木柵市場，用餐的客人幾乎都是長輩們。這可能是因為口感也比較符合長輩們的胃口的關係吧。之前還遇到有人特地聞名而開車過來吃炒麵味噌湯，看來這家店真是越來越有名了。

菜單

炒麵味噌湯販售的餐點主要分成三項，首先是味噌湯(15元)、豬血湯(20元)與貢丸湯(20元)；再來是主食的炒麵(30元)、炒米粉(30元)、油飯(30元)、涼麵(30元)；最後是配菜的臭豆腐(40元)與甜不辣(40元)。菜單就只有販售這幾樣餐點而已，典型的傳統路邊攤。

真要說的話，還有一項隱藏餐點沒有寫在菜單上：炒麵+炒米粉=混合。這樣就是一半炒麵、一半炒米粉，也是十分好吃。

營業時間

炒麵味噌湯最大的問題是，他不僅只有賣早上到中午、賣完就收攤，而且營業時間很不固定。上圖是從Google Map街景擷取的照片，大多時候炒麵味噌湯就像這樣鐵門深鎖。不營業的時候，有時會看到老闆在旁邊賣菜。

所以有一種說法是，如果一早就吃到炒麵味噌湯，那麼最近就會十分幸運。（謠言來自布丁本人）

接下來就來聊聊餐點吧。

餐點：味噌湯(15元)

這碗味噌湯便宜的只有15元，裡面有味噌、豆腐、蔥花、油條……是的，你沒看錯，那個深色不明物就是油條。這家老闆會將油條加入味噌湯中，增加味噌湯的口感。實際上意外地非常好吃，讓小小一碗味噌湯充滿了飽足感。

雖然份量不多，不過湯喝完之後可以再去跟老闆要清湯來喝喔。

餐點：炒麵(30元)

在講炒麵之前，我必須要先說明一件事情。在台北，早餐店所指的炒麵大多數都是指「鐵板麵」。而餐廳所指的炒麵，大多數都是將肉絲、蔥等配料與黃麵加水去炒，炒出來都是湯湯水水。這些讓我很不習慣，因為在我中部家鄉攤販所賣的炒麵，就真的是黃麵加上肉燥、豆芽菜、蔥去炒的乾麵。而這家炒麵味噌湯的炒麵，就真的是家鄉那種炒麵。（只是口感比較偏軟就是了）

我在2006年前往政大參加研究所面試之前，騎車時不經意地在這家點了炒麵當早餐吃時之後，我就一直是炒麵味噌湯的忠實顧客了。那時候炒麵還賣25元，炒麵味噌湯搭配起來才40元，飽足感幾乎可抵一餐。現在小小漲價到30元，我每次也還是樂於去賭賭看炒麵味噌湯會不會開。

餐點：甜不辣(40元)

這滿滿一碗關東煮(黑輪)的餐點就是甜不辣。裡面記得有米血、竹輪、炸甜不辣、貢丸、油豆腐等等，再淋上開胃的甜不辣醬，光看就令人食指大動，吃起來也是十分有飽足感。甜不辣的內容物如果有特別不吃的，可以先跟老闆講一下喔。

雖然也有人認為甜不辣這種加工物少吃為佳，不過美食在前，誰在意呢？XD

小結：夢幻攤販‧炒麵味噌湯

接近中午時堵到炒麵味噌湯有營業，我就會點上圖中的華麗餐點當午餐：炒麵(30元)、味噌湯(15元)、甜不辣(40元)，可以讓我吃得非常滿足、非常地胖XD

其實這篇我在2013年1月就準備好要寫的照片，可是遲遲到現在才有時間好好坐下來寫出來，現在終於如願以償了。

(more...)

以LDA法分析北美圖資學博士論文 / The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation

布丁布丁吃布丁

3月 08, 2014 0 Comments 期刊論文閱讀課程/圖書資訊學研究趨勢

以LDA法分析北美圖資學博士論文 / The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation

這是一篇論文閱讀筆記。作者使用LDA法(latenet Dirichlet allocation)分析北美圖資學博士論文，發掘出歷年來圖資領域的主題與轉變。

This is a research paper reading note. Author utilize latent Dirichlet allocation (LDA) to identitfy latent topics of North American Library and Information Science dissetations.

書目 / Bibliography

Sugimoto, C. R., Li, D., Russell, T. G., Finlay, S. C., & Ding, Y. (2011). The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation. Journal of the American Society for Information Science & Technology, 62(1), 185-204. doi:10.1002/asi.21435

摘要 / Abstract

This work identiﬁes changes in dominant topics in library and information science (LIS) over time, by analyzing the 3,121 doctoral dissertations completed between 1930 and 2009 at North American Library and Information Science programs. The authors utilize latent Dirichlet allocation (LDA) to identify latent topics diachronically and to identify representative dissertations of those topics.The ﬁndings indicate that the main topics in LIS have changed substantially from those in the initial period (1930–1969) to the present (2000–2009). However, some themes occurred in multiple periods, representing core areas of the ﬁeld: library history occurred in the ﬁrst two periods; citation analysis in the second and third periods; and information-seeking behavior in the fourth and last period. Two topics occurred in three of the ﬁve periods: information retrieval and information use. One of the notable changes in the topics was the diminishing use of the word library (and related terms). This has implications for the provision of doctoral education in LIS. This work is compared to other earlier analyses and provides validation for the use of LDA in topic analysis of a discipline.

這篇研究透過分析1930年至2009年間北美圖資系所的3,121篇博士論文(doctoral dissertation)，找出了圖書資訊與檔案學(library and information, LIS)許多主題(topic)。
作者使用隱含狄利克雷分布去找出長時間內隱含的主題，以及找出呈現該主題的相關博士論文。
研究發現指出LIS主要的主題從初期(1930-1969)到現在(2000-2009)的轉變。
然而，有些主題重複出現在多個時期，可說是此領域的核心：圖書館歷史(library history)出現在第一與第二時期；引文分析(citation analysis)出現在第二與第三時期；資訊尋求行為(information-seeking behavior)出現在第四與最後一個時期。
有兩個主題出現在這五個時期中的三個時期：資訊檢索(information retrieval)與資訊使用(information use)。
其中一個值得注意的改變是使用「圖書館」(library)這個字彙有減少的趨勢。這可能與圖資博士教育有所相關。
這份研究比較其他早期的分析並且驗證LDA分析主題的有效性。

閱讀筆記 / Reading Note

筆記檔案：Google Drive
PDF註解檔案：Google Drive

(more...)

訂閱：文章 (Atom)

書目 / Bibliography

筆記下載 / Note Download

摘要 / Abstract

閱讀筆記 / Reading Note

Introduction [P.1]

Paradigm Above the Water Line [P.1]

Paradigm Below the Water Line [P.2]

The Meta-Field of Information Science 圖資學的高層領域

The Content of Form 形式的內涵

Being and Representing 形式的呈現

Subject Expertise 圖資專業跟學科專家的不同

Librarianship and Information Science

Information Science Theory

Information Science's Universe 圖資學的世界

Information Science's Big Questions

Methodological Substrate 研究方法上的基礎

Values

心得

適用情境 / Problem Context

壓縮字串資料量 / Compress String Size

資料加密 / Encryption

LZW演算法 / LZW Algorithm

使用lz-string / lz-string Usage

下一步 / Next

書目 / Bibliography

筆記下載 / Reading Note Download

摘要 / Abstract

閱讀筆記 / Reading Note

1. Research Methodology [P.4]

2. Literature Review [P.5]

3. 半結構訪談大綱 [P.18]

4. Interview Result [P13]

5. Conclusions [P.15]

心得

檔案下載 / Report Download

壹、 緒論

貳、 研究方法

一、 研究對象

二、 KALS知識標註學習系統

參、 閱讀標註序列探勘機制

一、 資料處理

二、 循序樣式探勘

(一) 全域循序樣式演算法

(二) 資料探勘工具Weka

(三) 最小支持度門檻參數設定

(四) 最小序列長度參數設定

肆、 研究成果

伍、 結論與未來發展

問題敘述：縮圖程式錯誤訊息 / Problem Description: TimThumb Error

WordPress與外掛User-Avatar / WordPress’s Pluging User-Avatar

uploads資料夾掛載到NFS / Mount “uploads” Directory to NFS

圖片無法讀取 / Could Not Load Image

A TimThumb error has occured

問題剖析 / Problem Analysis

解決方案：替換user-avatar-pic.php / Solution: Replace file “user-avatar-pic.php”

簡介

菜單

營業時間

餐點：味噌湯(15元)

餐點：炒麵(30元)

餐點：甜不辣(40元)

小結：夢幻攤販‧炒麵味噌湯

書目 / Bibliography

摘要 / Abstract

閱讀筆記 / Reading Note

About Me

布丁布丁吃布丁

Facebook Fanpage

Random Posts

Guestbook

Recent Posts

Comments

壹、緒論

貳、研究方法

一、研究對象

參、閱讀標註序列探勘機制

一、資料處理

二、循序樣式探勘

肆、研究成果

伍、結論與未來發展