:::

Information retrieval and the philosophy of language 資訊檢索與語言哲學

布丁布丁吃布丁

Information retrieval and the philosophy of language 資訊檢索與語言哲學

image

Blair, D. C. (2003). Information retrieval and the philosophy of language. Annual review of information science and technology, 37(1), 3–50.


1. 前言

  1. 資訊檢索範圍定義:
    I take information retrieval to involve the description and retrieval of written text, what I say here is applicable to any information item whose intellectual content can be described for retrieval-books, documents, images, audio clips, video clips, scientific specimens, engineering schematics, and so forth.
    • Description (描述) and Retrieval (檢索) 書寫的文字
    • 書寫文字特別指intellectual content (智慧內容),可用於檢索
  2. The philosophy of language deals specifically with how we are understood and mis-understood, it should have some use for understanding the process of description in information retrieval.

2. 檢索問題:

2-1. Failures of Description 敘述(呈現)的困難
  1. "exhaustive indexing" (unlimited aliasing): the assignment of all the index descriptions that could represent the intellectual content of an item of information.
    但卻不是很好的策略,因為:
    • 上限永無止盡,即使資訊很少
    • 有些索引詞比較重要,必須有重要性排列
2-2. Failures of Discrimination 分辨的困難
  1. The goal of discrimination is to distinguish, by means of description, documents that are likely to be useful to the inquirer from available documents with similar intellectual content that are not likely to be useful.
  2. too general to distinguish it from the intellectual content of useless documents.
2-3. Recall and Precision 求全率與求準率
  1. Recall 求全率: the percentage of relevant documents retrieved.
    • Failures of description lead to low recall.
  2. Precision 求準率: the percentage of retrieved documents that are relevant
    • Failures of discrimination tend to low precision.

3. 語言哲學應用到資訊檢索的含意

Ludwig Wittgenstein (1889-1951) 語言哲學奠基者

  1. "Meanings" are not linked to words.
  2. "Meanings" are not concepts or any other single thing.
  3. To understand a word means to know when to use it ... and how to use it.
  4. Meaning is not the same as use, but emerges through use.
  5. Context and circumstances are often essential determinants of meaning.
  6. We assume that the individuals with whom we talk will cooperate with us and follow Grice’s maxims.

4. Externalism(形式主義)與語言哲學

  1. Internalist 內在主義者: philosophy of mind 內心的運作、處理過程
  2. Externalism 形式主義: there are many external facilities or processes that are necessary for cognition. 認知需要許多外在工具與過程
    1. 輔助認知的工具:紙筆之於數學計算 → 資料檢索之於資料庫
    2. “Twin Earch” thought experiment (Putnam, 1975): different people will call different things by the same name
  3. Scaffolding 鷹架建構: provides external augmentation for intelligent activity, enabling us to achieve outcomes that would be difficult or impossible for a single, unassisted individual.
    • Enable several individuals to work together to perform a complex task.

5. Scaffolding(鷹架建構)與資訊檢索

  1. The particular searching procedures and the explicit or implicit theory of representation used by an information retrieval system can, quite literally, become extensions of the cognitive processes of inquirers --this can be either good or bad.
  2. A simple full-text retrieval system does an unnatural way
    • Forcing the searcher to predict the exact words and phrases that occur in the desired documents.
    • People are quite good a t remembering proper names and approximate time frames.
    • Forgotten characteristics: Records should be continually ranked by their importance and less important ones regularly weeded out and forgotten.

6. 語言哲學應用到資訊檢索

6-1. The Significance重要性
  1. Contexts of activities and practices: If we want to know what the descriptions used to represent a document mean, we must examine how these descriptions are used in the activities and practices that use that information.
    • 但是系統通常把資訊跟情境當成兩回事
  2. Bring context into descriptions: If information retrieval systems cannot be physically near the activities and practices they support, then it may be useful to bring some of this context into the descriptions of the documents themselves.
  3. More real-time mode: it would be useful to develop procedures that use searcher feedback to adapt document descriptions.
  4. The danger with scaffolding: taking advantage of certain technical resources or efficiencies, we may actually force searchers to act in unnatural or problematic ways.
  5. From description to discrimination: The notion of "term discrimination" considered here is not just a comparison of term frequency occurrences, in which a term that occurs in just one document in the collection is considered a good discriminator and a term that appears in all the documents is not.
6-2. Writings 相關研究
  • Blair (1990) "Language and Representation in Information Retrieval" 資訊檢索中的語言與呈現: an extended argument for the importance of the problem of representation in information retrieval.
    • Blair and Kimbrough (2002) “exemplary documents示範文件: provide a guide to the intellectual content of many of the documents.
  • The theory of Illocutionary, or Speech, Acts 語內表現、演說、動作: a class of linguistic events (Speech Acts) exists that has predictable structures and processes.
    • Directives 指令: In which we order others to do things
    • Commissives 委任: In which we promise to do something
    • Declarations 宣告: In which we bring about changes in the world solely by our utterance
    • Expressives 陳述: In which we express our personal feelings and attitudes
    • Assertives 假設: In which we make statements, truly or falsely, about how things are
  • Relevant 相關: model formal relationships in language
    • Cooper (1971): minimal premise set 最小前提集
    • Wilson (1973): situational relevance 情境相關

感想

  • 不是很好理解的一篇文章,總覺得探討太多哲學問題會造成無限上綱的困境。在應用研究上,文獻探討應適可而止。

這篇光是語言哲學就講了26頁。當故事看還算有趣,但看完也很難跟人家說明則是個問題orz

(more...)

Relevance: The whole history 「相關」歷史回顧

布丁布丁吃布丁

Relevance: The whole history 「相關」歷史回顧

image

Mizzaro, S. (1997). Relevance: The whole history. Journal of the American Society for Information Science, 48(9), 810–832.


1. Introduction

1-1. Why to write this article?
  1. Relevance is one of the central concepts for documentation, information science and information retrieval. 「相關」很重要
  2. Relevance’s history is very useful for understanding what relevance is. 歷史便於理解「相關」
  3. There is no recent paper that describes in a complete way the history of relevance. 最近缺歷史回顧文獻
  4. This work can be situated at a higher level than the above mentioned surveys 這份回顧要比前人寫得更好
1-2. How to write it?
  1. 範圍限制:documentation, information science, and information retrieval
  2. As objective as possible 盡量客觀
  3. Not only to present the history of relevance, but also to give a framework for understanding the history and the concept.

2. A Framework for Various Kinds of Relevance

2-1. 分類框架

相關 = 第一組要素 + 第二組要素 in 三種組成成分

  1. 第一組要素
    • Document 文件: 使用者找到的實體資料
    • Surrogate 中介資料: 呈現文件的資料,如作者、書目資料、摘要等
    • Information 資訊: 使用者閱讀文件之後接收的資訊
  2. 第二組要素
    • Problem 面臨問題: 使用者所面臨的問題,需要資訊來解決
    • Information need 資訊需求: 使用者內在的需求,可能無法對外表述
    • Request 請求協助: 使用者用自然語言表達資訊需求
    • Query 系統查詢: 使用者用系統語言查詢資料
  3. 三種組成成分
    • Topic 主題: 使用者關注的主題領域,例如特別是在資訊科學或檢索
    • Task 任務: 註明使用者的動作
    • Context 情境: 除了主題跟任務之外其他事務,像是地點、結果評估

image

2-2. Relevance judgment 相關評判
  1. The kind of relevance judged;
  2. The kind of judge (user and non-user);
  3. What the judge can use (surrogate, document, or information) for expressing his relevance judgment
  4. What the judge can use (query, request, information need, or problem) for expressing his relevance judgment.
  5. The time at which the judgment is expressed.

3. 相關歷史分類說明

  1. 時代區分:大約20年一個間隔
    • Before 1958, 1959-1976, 1977-present (1997)
  2. 研究類別區分
    • Fundations 基礎研究: be defined from different standpoints, using different mathematical instruments and conceptual approaches.
    • Kinds 類型研究
    • Surrogates 中介資料研究: The type of surrogate used can affect relevance judgments
    • Criteria 評鑑研究: 從使用者角度來進行相關評判
    • Dynamics 變動研究: 相關會受到時間影響
    • Expression 表達研究: 什麼方法呈現相關評判結果才是最符合使用者需求
    • Subjectiveness 主觀研究: 不同相關評判間是否一致;不同使用者間的相關評判是否一致

4. 相關的歷史

4-1. Before 1958
  1. 相關資訊的問題剛被發現,但尚未成為聚焦討論的議題
  2. 相關研究: Lotka (1926), Bradford (1934), Zipf (1949), Urquhart (1959), Price (1965)
  3. 相關的正式基礎: Pritchard (1969)的書”bibliometrics”
  4. IR先驅者: Mooers (1950), Perry (1951), Taube (1955) and Gull (1956)
4-2. 1959-1976
  1. 回顧文章: Saracevic (1970~1976), Schamber et al (1990)
  2. Foundations: 奠基未來研究基礎
    • Probabilistic retrieval 機率檢索: Maron and Kuhns (1960)
    • Mathematical logic 數學邏輯: Cooper (1971) and Wilson (1973)
    • The user’s sotck of knowledge 先備知識: Rees (1966) and Wilson (1968)
  3. Surrogates: Quality & Surrogate’s length: 越長品質越好?
  4. Expression: 不同的相關評判適用不同的表達方式
  5. 重要學者: Cuadra & Katter; Rees & Schultz
4-3. 1977-Present (1997)
  1. Foundations
    • User-oriented, cognitive approaches (Schamber et al., 1990; Harter, 1992) 使用者導向,認知取向
    • Defined a logic for IR (Rijsbergen, 1986~1989) 提出更複雜的模型
    • “paradox of relevance” -> “subjective, not measurable” 對立演變成主觀
    • Consider the relevance of a set of documents instead of a single document appear (Gordon & Lenk, 1991)
  2. Kinds
    • Many studies mistake system-relevance for topic-relevance, do not consider all the existing kinds of relevance.
    • Measure the until then retained unmeasurable relevances.
  3. Surrogates
    • 研究里程碑: The “length hypothesis” (Marcus et al., 1978) & Janes (1991)
    • surrogate-based relevance judgments tend to become similar to full-document judgments as the surrogate
  4. Criteria: user defined criteria & document characteristics
  5. Dynamics
    • The existence of a presentation order effect 次序效應
    • the dynamic nature of query, request, information need, and problem justifies at least in part the dynamic nature of relevance 相關變動的最後部分是請求協助、資訊需求與面臨問題
    • cognitive considerations based on learning, mental models, and criteria can explain the variations in relevance judgments 基於學習、心智模型、內心標準的認知思考可作為相關評判的變數
    • the time point at which relevance is measured 可測量的時間點
    • some mathematical models are proposed 數學模型
    • Iterative and interactive IRS: 高互動的檢索系統
  6. Expression
    • magnitude estimation (numeric estimation, line length, and force hand grip) is an effective and reliable method for expressing relevance judgments 數字呈現方式很有效率也很可靠
    • it is preferable to both category rating scales and dichotomous judgments. 分類度量與分歧判斷
  7. Subjectiveness: the conditions (features of the judges, but also criteria and dynamics) that lead to inconsistency.

Discussion 相關研究成長趨勢

  1. 從1960s年代到最近10年間研究持續增加
  2. 分類數量最多:foundations, kinds
    分類數量最少:surrogates
    其他分類數量差不多
  3. 分類foundations, criteria, dynamics, expression穩定成長

Conclusion

Relevance is a necessary part of understanding human information behavior. The field should be encouraged by commonalities across perspectives, not discouraged by disagreements. Relevance presents a frustrating, provocative, rich, and—undeniably—relevant area of inquiry. (Schamber , 1994)

感想

  • 非常有架構的review文章,清楚好閱讀!

這也是一篇review的好文章,不過相關好複雜啊,光看review很難懂(遮臉)

(more...)

客家文化研究生之資訊尋求行為: 資訊視域之觀點

布丁布丁吃布丁

客家文化研究生之資訊尋求行為: 資訊視域之觀點

image

陳川淼、黃元鶴(2011)。客家文化研究生之資訊尋求行為: 資訊視域之觀點。大學圖書館15(1),144–170。


1. 摘要

本文對11位客家文化研究生進行訪談,繪製資訊資源視域圖以呈現研究生找尋資訊的過程,辨識各資源所屬類型。歸納影響資訊行為的因素,包括個人背景、資訊認知程度、學術環境支援等。

2. Information horizons 資訊視域 (Sonnenwald, 1999)

  1. 命題:context情境、situation 狀況、social networks社會網絡
    1. 人類的資訊行為由個體、社會網絡、狀況和情境所形成。
    2. 個體能感知、反映以及評估他人或 自我等週遭環境的改變。資訊行為是個體基於知識缺乏時之一連串反應與評估的行為。
    3. 資訊視域處於一個狀況和情境之中,我們可以在當中採取行動。
    4. 人類資訊尋求行為,可以視為一種個體與資訊資源之間的協同合作。
    5. 資訊視域可由各種資訊資源組成,可視為多種解決問題的方案。在這些解決方案中,使用者會從中選擇最佳解決方案並採取最有效途徑展 開一連串的資訊檢索。
  2. 本研究專注於「資源」上,以訪談法調查受訪者取用的資源與其順序
    • 資源分類:人際資源、網路資源、電子資源(以網路連線至圖書館使用之資源)、組織資源(圖書館等)與其他資源
  3. NetDraw繪製資訊資源視域圖,並進行分析
    image
    1. 每個資源都是一個節點
    2. 依照使用資源的順序繪製節點之間的有向連線
    3. 計算各節點的提及次數、連結數、向外連結、向內連結
    4. 分辨資源節點類型
  4. 資源節點類型:
    1. 起點型:只有向外連結,係搜尋的起點,如客家電子報
    2. 推薦型:向外連結較多,引人找尋其他資源,如教授、同儕、家人等
    3. 平衡型:向外連結與向內連結均衡,如學科專家
    4. 聚焦型:向內連結較多,是主題確定之後主要搜尋的管道,如資料庫
    5. 終點型:只有向內連結,資訊尋求至此即開始寫作,如耆老
    6. 孤立型:不跟其他資源連線,如地方活動

感想

  • 本研究的資訊資源視圖無法看到不同情境與狀況下的改變。由於每位研究生處理的問題與狀況有所不同,所以資源節點連結的順序也會有所差異,這是需要更嚴謹探究的地方。
  • 社會網絡分析實在是很有趣,連資源搜尋也能用這種方法來繪製。同理也可以應用到其他地方,例如行為改變上。

NetDraw的Products網頁裡面把UCINET 6的類型寫作$$$$,實在很搞笑XD 不知道NetDraw好不好用呢?

(more...)

Inside the search process: Information seeking from the user’s perspective 從使用者觀點看資訊檢索

布丁布丁吃布丁

Inside the search process: Information seeking from the user’s perspective 從使用者觀點看資訊檢索

image

Kuhlthau, C. C. (1991). Inside the search process: Information seeking from the user’s perspective. Journal of the American Society for Information Science, 42(5), 361–371.


1. 前言

  1. 傳統的資訊尋求是在bibliographic paradigm書目典範中,是為了集中與排序,但對使用者來說則是充滿不確定跟困惑的問題
  2. Information Search Process (ISP) 資訊搜尋處理:
    the ISP is the user’s constructive activity of finding meaning from information in order to extend his or her state of knowledge on a particular problem or topic.
    為了擴展對問題主題的認識,找資訊的行動過程
  3. Information seeking 資訊尋求:a process of sense-making in which a person is forming a personal point of view (Dervin, 1983)
    形成個人觀點的決策過程

2. ISP的理論基礎

  1. Phases of Constructions建構階段(Kelly, 1963)
    1. 「困惑」常常導致對於新資訊的「質疑」;因為新資訊太過分散而導致「恐懼」
    2. 此時,個人會提出「假設」與測試取得新的知識架構,進而對暫時的假設進行「重組」
  2. Levels of Need 需求層次 (Taylor, 1963; 1986)
    1. Visceral 內藏需求但無法表示
    2. Conscious 腦中浮現需求
    3. Formal 外顯陳述
    4. Compromised 組織查詢語句
  3. Levels of Specificity 具體表達層次 (Belkin, 1980):ASK (Anomalous State of Knowledge)假設
    1. 低層次:提出問題與經驗的需求
    2. 高層次:能以較準確的命令提出資訊的需求
  4. Mood 情緒 (Kelly):
    1. Invitational 被引導的:根據吸收的資訊,開啟新想法與接收改變
    2. Indicative 直接的:根據現有建構的資訊,拒絕新資訊研究ISP情感與認知層面的方法論

3. ISP的6個階段

ISP階段

Feelings 感受

Thoughts 想法

Actions動作

根據Kuhlthau Model的合適任務

1. Initiation 起始 Uncertainty 不確定 General / Vague 模糊 Seeking Background Information 找大範圍資料 Recognize 認識
2. Selection 選擇 Optimism 樂觀的     Identify 辨識
3. Exploration 瀏覽 Confusion / Frustration / Doubt 困惑質疑   Seeking Relevant Information 找相關資料 Investigate 調查
4. Formulation 提出查詢 Clarity 思路清晰 Narrowed / Clearer 清晰窄化   Formulate 闡述
5. Collection 蒐集資料 Sense of irection / Confidence 有信心的 Increased Interest 增加興趣 Seeking Relevant or Focused Information 找聚焦資料 Gather 取得資料
6. Presentation 表達 Relief / Satisfaction 滿足 or Disappointment 失望 Clearer or Focused 聚焦   Complete 完成任務

4. 理論與實際研究的差異

  1. 群體之間的差別:比較公共圖書館、學術圖書館與學校圖書館的使用者
    • 公共圖書館使用者在資訊尋求初期較學術或學校圖書館有信心
    • 大學圖書館的學生在資訊尋求末期較高中圖書館的學生有信心
  2. 任務認知上的差距:受試者在各階段進行的任務與預期有很大的不同
    • 受試者提蒐集、完成任務
    • 研究發現,許多人在進入表達或寫作階段時,對主題都尚未清楚聚焦

5. 未來研究

  1. 驗證資訊搜尋處理的模型
  2. 確認使用者在搜尋中進行的任務,以及他們的實際體驗
  3. 比起被強迫指定作業的資訊需求,也需要研究需求來自於自身的情況,例如不是上課的成人
  4. 研究資訊搜尋過程中,搜尋成果跟認知、情感方面的關係

6. 討論:Anxiety焦慮

  1. 焦慮:通常跟缺乏資訊資源與技術的知識有所關連
  2. 預防使用者的不確定,可以改善ISP前期的狀況
    • 資訊系統需要發展出辨識使用者在ISP各階段的問題,並提供不同的搜尋策略,像是初步認識、瀏覽探索、全面搜尋、檢索摘要等

感想

  • 最後的討論非常值得讓人深思,資訊系統應該更加個人化地輔助使用者的檢索歷程,而不是一個單純的工具。
  • 題目方向:以使用者的焦慮程度與他所執行的資訊行為,辨識使用者在ISP各階段的特徵,製作資訊系統預測使用者所處的ISP階段的模型

以往資訊檢索都是站在系統的角度來設計,不過Kuhlthau則是呼籲大家要從使用者為中心,這是很重要的轉變。讀的時候文中有挺多的抽象形容詞讓我難以理解,我還需要再加油。

(more...)

Information behavior 資訊行為

布丁布丁吃布丁

Information behavior 資訊行為

image

Case, D. O. (2006). Information behavior. Annual Review of Information Science and Technology, 40, 293.


1. 前言

  1. Information behavior 「資訊行為」的定義: “the totality of human behavior in relation to sources and channels of information, including both active and passive information seeking and information use.” (Wilson, 2000)
    跟資訊來源與頻道相關的人類行為,包含主動與被動的資訊搜尋與使用。
  2. 涵蓋範圍:2001-2004
  3. 文獻來源:
    • 電子資料庫:Wilson’s Library Literature and Information Science Full Text
    • 印刷與電子期刊:The New Review of Information Behaviour Research and Information Research
    • 其他手動蒐集的相關主題出版品
  4. 收錄限制:
    • 排除特殊研究:特定領域(site-specific,如個人圖書館)、特定系統、特定服務(如只限於從家裡存取網路的方法)
    • 特別收錄網際網路使用研究:只含括使用多種來源的媒體與有所互動的情境下
    • 不收錄已經被探討過:資訊取用、搜尋行為、電子期刊使用、搜尋引擎

2. ARIST回顧資訊尋求(information seeking)的歷史

  1. 零星介紹 (1966-1978):在個別文章中提及「資訊尋求與使用」
  2. 綜合回顧 (1986-1990):Dervin & Nilan (1986)與Hewins (1990)
  3. 專業分化 (1990-2002):資訊系統、服務與技術;瀏覽、資訊守門員;搜尋行為心智模型、方法、情境
  4. 綜合回顧 (2002):Case(2002)回顧1990s之前的研究

3. Information Seekers by Occupation 研究對象

3-1. Scientists 科學家
  1. 通常都是對單一學科、觀察小樣本科學家的資訊蒐集行為
  2. 對於科學家的研究已經做很多了,沒特別新的發現
3-2. Engineers 工程師
  1. 對工程師的研究深度加深:Fidel & Green (2004)發現可取用性(accessibility)是影響工程師選擇資訊的主要因素
  2. 可取用性的定義又可有「節省時間」跟「熟悉程度」等不同的面向,引發其他研究深入探討
3-3. Scholars 學者
  1. 對不同領域的學者進行研究很常見,現在研究的取樣範圍也逐漸擴大:
    • Talja (2002)面試護理專家、歷史學家、文獻學者、環境科學家等不同人
    • "scholars define their research areas and disciplines through social interaction and that collaboration and information sharing are essential aspects of scholarship."
      發現學者透過社會互動定義研究領域與學科範圍,而且資訊分享是學術的基本
  2. 社會科學家、人文學者、音樂家等資訊行為也是頗受重視。
3-4. Managers 管理階層
  1. 描述資訊行為的詞彙:scanning (掃描=資訊尋求)、sense-making (意義建構)
  2. Choo (2001)建立企業組織中的資訊搜尋模型,包括需求、尋找、使用、組織策略以及外部情境
  3. Mackenzie (2003)發現管理者傾向於取用他們不需要的資訊,只為了加快決策的速度,因為他們覺得蒐集資訊可以長知識。
  4. Hirsh & Dinkelacker (2004) 發現節省時間、權威性與方便性是影響資源選擇的主因;即時、可依賴與熟悉程度則比較不重要。
3-5. 其他
  1. 律師:Wilkinson (2001)發現它們喜歡非正式與內部的資訊來源
  2. 看護:Cogdill(2003)發現看護人員需要常用藥物治療法與參考資源、看護病人的診斷書、規定手冊
  3. 醫院社會工作者(醫生與病人):Harrison, Hepworth與de Chazal (2004)發現他們常處於information poor (資訊貧窮),大多用口耳相談交換資訊,而非透過網路找尋有用資源

4. Information Seekers by Role 角色

4-1. The General Public 一般大眾
  1. 1970s與1980s幾個大規模的研究後,現在較少對一般大眾的研究。
  2. Pettigrew、Durrance與Unruh (2002)調查認為即使介面設計、組織、權威、即時、隱私等其他因素都很不佳,社區組織網路還是很有用
  3. 網際網路成為新興議題:Kaye & Johnson (2203)發現網際網路快要成為電視、廣播與雜誌的替代品。但Hektor(2003)指出網際網路只是各種管道的一種,而非唯一的來源
  4. Julien & Michels (2003)研究個人私密資訊行為,發現時間限制、動機、情境、起始事件類型、位置、資訊應用目的、資源類型都是影響的因素
4-2. Patients 病人
  1. 看護、病人對於健康資訊的需求與特殊的病人等研究越來越盛行
  2. Rees & Bath(2001)提出Monitoring/Blunting Scale (MBS):
    • Monitoring 監控:檢視環境潛在威脅
    • Blunting 遲鈍:忽略或使人遠離威脅資訊
  3. Warner & Procaccino (2004)研究大量女性,得到下資訊來源的取得順序:
    • 醫師;藥師或健康書籍;擁有相同病況的人;家人或朋友;護士或製藥商;網站;公共圖書館
  4. Baker(2004)發現末期病患需要資訊來面對臨終與死亡,但需求會反映在生理、情緒、精神、經濟等個人因素上
  5. 癌症病人的研究:Johnson、Andrewes與Allard(2001)提出一個研究癌症病患的癌症基因資訊尋求的模型
4-3. Students 學生
  1. 學生資訊行為研究眾多,幾乎都跟「學習」有所關連
  2. Gross & Saxton(2001)發現「imposed 強迫式」資訊行為模式:由一人(通常是老師)提出問題,另一人(通常是學生)幫忙解決。
  3. Whitmire (2003)發現學生對主題的認識方式影響他們如何選擇、尋找、評鑑資訊,以及辨識資源的權威性
  4. Henstrom (2003)分析五種影響資訊行為的個人內在認知面向:neuroticisim神經質、extraversion 個性外向、openness to experience 投入體驗、competitiveness 競爭性、conscientiousness 責任心
4-4. 其他角色:Hobbyists 特殊嗜好
  1. Hobbyist cooks烹飪嗜好者:Hartel (2003)
  2. 族譜研究者:Yekel (2004)、Duff & Johnson (2003)

5. Information Seekers by Demographic or Social Group 社會族群

5-1. Children and Youth 幼童與青年
  1. 研究從圖書或網路使用,擴大到探討孩童認知、學習與社交層面
  2. Cooper (2002)發現7歲幼童在圖書館找書是看封面而不注重內容
  3. Shenton & Dixon (2003)提出青年的資訊尋求模型,特別著重於來自周遭他人的資訊來源
    • Agosto & Hughes-Hassell 也發現朋友跟家人是青年優先的資訊來源
5-2. 其他族群
  1. Immigrants 移民者、the Poor 貧窮者、the Homeless 遊民、Women 女性、The Elderly 老年人

6. Metatheory, Theory and Models 高層理論、理論與模型

  1. 帶入理論與高層理論的觀察研究,是從Fisher、Julien與Duggan (2000)、McKechnie (2002)等人開始
    • Ford (2004)注重研究的主題性;Abbott (2004)思考分類與檢索議題之間的關聯
    • Hjorland(2004)分析目標與主題對於資訊行為的相關性
  2. “context” or “situation”:Johnson (2003)與Cool(2001)都有寫過長篇回顧
  3. 資訊行為的模型與理論回顧:Pettigrew、Fidel與Bruce (2001),包含認知、社交、或多方面的
  4. ASIST出版的Theories of Information Befavior (Fisher, Erdelez & McKechnie, 2005)描述超過70個資訊行為研究可用的理論
  5. Hall (2003)認為從其他領域借理論來用,例如Social Exchange Theory
  6. 各種理論與模型的分析:Jarvelin & Wilson (2003)

7. Methods 研究方法

  1. Wilson (2002)為研究方法分類:以觀察作為資料蒐集的根本方法,分成直接跟間接變項,然後將各方法分成民族誌觀察(ethnographic observation)、問卷調查、訪談等常見方法。
  2. Baker等人(2002)分析1993到2000共247篇人類資訊行為相關文章
    • 35%:訪談
    • 20%:問卷
    • 14%:觀察
    • 12%:內容分析
    • 其他19%:日記、交易記錄、焦點團體、放聲思考("think aloud" protocols)、二次分析( secondary analysis)、實驗測試、書目計量、話語分析(discourse analysis)

8. 結論

  1. 研究數量越來越多,包括個人與社群、情境與社會影響、個人資訊與描述的深度加深
  2. 研究朝向國際化、概念化;研究的典範也從靜態的需求與使用轉變成動態的個人與情境導向
  3. 資訊行為的分化與專業化,讓人對「資訊行為」的概念薄弱

感想

  • 這篇review的寫作模式觀察
    • 從定義、範圍、架構開始說明,然後一一從分類介紹研究;
    • 每一篇研究講述作者、研究對象與問題、提出重要的結論與發現;
    • 當多篇研究有共通點時,講述共同的趨勢;
    • 參考其他review作為分類各種研究的依據;
    • review研究也是重要的研究文章
  • 架構清楚,文章有條理,因此很容易就懂這篇文章要說什麼。
    • 但是因為感覺許多研究都很重要,反而讓人難以知道重點在哪裡

之前就一直很想好好讀ARIST的文章,不過實際上是到這時候才好好地讀。讀完之後獲益良多,真的是ARIST專出好文。

(more...)

浅析 OCLC 的 FRBR 作品聚集算法

布丁布丁吃布丁

浅析 OCLC 的 FRBR 作品聚集算法

image

张俊娥(2006)。浅析 OCLC 的 FRBR 作品聚集算法。大学图书馆学报24(006),66–69。


FRBR概念模型實體層次

image

FRBR 作品聚集算法

  • 書目記錄→作者 / 題名鍵 (author / title key),再來計算叢集
  • 步驟一:資料前處理:擷取與整理
    1. 準備權威對照 (Authority Mappings):利用LC的名稱權威檔 (LC Name Authority File)
    2. 建構權威鍵 (Constructing Authority Keys):從書目中抽取作者與題名資料
    3. 透過名稱權威檔過濾,統一作者與題名
  • 步驟二:建立作品集鍵(Work-Set Key),最終可產生以下四種形式:
    • 作者 / 題名
    • 統一題名
    • 題名 / 一個或多個作者
    • 題名 / OCLC控制號
  • 步驟三:以作品集鍵,建構叢集
    • 舉例來說,透過以上步驟,下列五筆作品集鍵都有相同題名,但不同作者:
      1. Title / Author A
      2. Title / Author A / Author B
      3. Title / Author B / Author C
      4. Title / Author C
      5. Title / Author D / Author E
    • 依據作者不同,可以分群成a b c d跟e兩群

感想

  • 與其說是分群演算法,不如說資料前處理的手續更為重要吧。
  • 意外的是,年代、出版地、出版者等其他有用的資料居然沒有納入考量,這樣的分群演算法還有很大的改善空間。

因為看了上一篇「Derivative bibliographic relationships」之後,想要找一下有沒有書目關連的相關技術研究。不過這篇有點像是演算法的中文說明版,倒不像是研究論文啊?

(more...)

Derivative bibliographic relationships: The work relationship in a global bibliographic database 全球書目資料庫(World Cat)中的作品關連分析

布丁布丁吃布丁

Derivative bibliographic relationships: The work relationship in a global bibliographic database 全球書目資料庫(World Cat)中的作品關連分析

image

Smiraglia, R. P., & Leazer, G. H. (1999). Derivative bibliographic relationships: The work relationship in a global bibliographic database. Journal of the American Society for Information Science, 50(6), 493–504.


1. 研究背景

  • 書目實體 (bibliographic entity):書目控制與檢索的核心單位。
    書目實體也包含兩類型的屬性:
    • 實體 (physical):尺寸、材質、傳輸模式(印刷品或磁帶等等)
    • 意義 (intellectual):標題、作者、出版細節。
  • 作品 (work):書目實體的意義內容。
    作品也包含兩類型的屬性:
    • 概念內容:主題
    • 語義內容:呈現方式,例如音樂的。
  • 作品與作品之間有所關連:例如不同出版社但是內容卻相同。
    • 提供作品關連,有助於使用者在目錄中找尋資料。

2. 文獻探討:書目家族的研究

  • Leazer (1993):作品之間存在著複雜的關聯網路。
  • Tillett (1991) 建立了書目關連的分類
    • 分析美國國會圖書館(LC)的目錄
    • 發現目錄中介於11.2%到19.4%的作品有延伸書目關連 (derivative bibliographic relationships)。
  • Smiraglia (1992, 1994) 繼續深入研究書目關連
    • 分析Georgetown University Library (GEORGE,OCLC目錄OLUC的一部分)與Research Libraries Information Network (RLIN)目錄
    • 發現49.9% (±4%)的作品有延伸書目關係
    • 書目家族中各別有1到127筆成員書目,平均為4.7筆。
    • 「延伸書目關係」(derivative bibliographic relationship):存在於一個新作品與其原始來源(始祖書目 progenitor),或是他的後繼書目(successor),或是包含這兩者的全新概念。
    • Smiraglia將延伸書目關係分類:
      • 同步延伸(simultaneous derivations):作品同時發佈成兩種版本,或是在很近的時間內發佈。
      • 後繼延伸(successive derivations):作品經過修改後發佈了後續的版本,或是由新的作者撰寫。
      • 翻譯
      • 擴大延伸(amplification):包括文字加上繪圖、音樂設定,或是評論、索引、注釋。
      • 擷取延伸(extraction):摘要、縮寫本、節錄。
      • 改寫延伸(adaptation):包括簡編、電影劇本、歌詞、音樂作品的改編、或是其他修改版本。
      • 演出延伸(performance):包括音樂與視訊的紀錄。

3. 研究問題

  1. WorldCat中有多少作品是書目家族的成員?
  2. WorldCat中每個書目家族有多少筆成員數量?有多少延伸關連?
  3. 書目特性(像是年代、格式、分類、學科領域等)跟延伸書目關連是否有相關?
    • 年代有統計顯著低度相關:書目家族成形通常都在始祖書目發表之後的近期間
    • 格式有統計顯著低度相關,但因為未能辨識的資料過多而有失準確。其中60%教科書(textbook)都有延伸作品,報告跟論文則比較少延伸作品
  4. 延伸書目關連的發生頻率為何?
  5. 每個書目家族中的關連複雜度為何?是否會隨著時間改變?

4. 研究方法

  1. 從WorldCat中隨機抽樣1000筆書目,從中篩選出477筆始祖書目
  2. 根據始祖書目,找尋WorldCat中其他的關聯書目,建構書目家族
  3. 記錄書目特性:年代、語言、出版地、格式、分類、媒體、學科領域
  4. SPSS分析

5. 研究結果

  • 樣本敘述:英文佔2/3、來自美國佔1/2、1960年代之後佔2/3、70%格式無法辨識、書本佔90%
  • 回答問題1:大約有30.2% ± 4.1%筆書目是書目家族的成員
  • 回答問題2:30.2%的家族只有2筆成員,平均3.54筆。69.8%的始祖書目沒有延伸作品
  • 回答問題3:與延伸書目關連有統計顯著相關的書目特性只有年代跟格式
    • 年代有統計顯著低度相關:書目家族成形通常都在始祖書目發表之後的近期間
    • 格式有統計顯著低度相關,但因為未能辨識的資料過多而有失準確。其中60%教科書(textbook)都有延伸作品,報告跟論文則比較少延伸作品
  • 回答問題4:由於音樂跟文學作品較多的關係,表演跟改編的關係也較常發生
  • 回答問題5:家族數量與關係複雜度呈現統計顯著的低度正相關

感想

  • 研究資料庫書目資料時,有太多變數是需要去克服。此篇遭遇到1.關連難以判斷;2. 格式與學科分類資料欠缺的問題,有部分分析結果並不是很漂亮。
  • 與其說這篇論文是在介紹書目關係分析方法,不如說是詳細探討WorldCat收錄的資料特性,並與前人比較。不禁讓人疑惑,如果我換了一個資料庫做研究,那看來又會是完全不同的世界。
  • WorldCat國際化後加入了各國書目,相信這時候再做書目關連分析會更有效果。

讀了一些歷史回顧型的文章之後,終於又接觸到實證型的研究論文,看著一堆數字跟表格,讀起來格外懷念。

(more...)