:::

Information retrieval and the philosophy of language 資訊檢索與語言哲學

布丁布丁吃布丁

Information retrieval and the philosophy of language 資訊檢索與語言哲學

image

Blair, D. C. (2003). Information retrieval and the philosophy of language. Annual review of information science and technology, 37(1), 3–50.


1. 前言

  1. 資訊檢索範圍定義:
    I take information retrieval to involve the description and retrieval of written text, what I say here is applicable to any information item whose intellectual content can be described for retrieval-books, documents, images, audio clips, video clips, scientific specimens, engineering schematics, and so forth.
    • Description (描述) and Retrieval (檢索) 書寫的文字
    • 書寫文字特別指intellectual content (智慧內容),可用於檢索
  2. The philosophy of language deals specifically with how we are understood and mis-understood, it should have some use for understanding the process of description in information retrieval.

2. 檢索問題:

2-1. Failures of Description 敘述(呈現)的困難
  1. "exhaustive indexing" (unlimited aliasing): the assignment of all the index descriptions that could represent the intellectual content of an item of information.
    但卻不是很好的策略,因為:
    • 上限永無止盡,即使資訊很少
    • 有些索引詞比較重要,必須有重要性排列
2-2. Failures of Discrimination 分辨的困難
  1. The goal of discrimination is to distinguish, by means of description, documents that are likely to be useful to the inquirer from available documents with similar intellectual content that are not likely to be useful.
  2. too general to distinguish it from the intellectual content of useless documents.
2-3. Recall and Precision 求全率與求準率
  1. Recall 求全率: the percentage of relevant documents retrieved.
    • Failures of description lead to low recall.
  2. Precision 求準率: the percentage of retrieved documents that are relevant
    • Failures of discrimination tend to low precision.

3. 語言哲學應用到資訊檢索的含意

Ludwig Wittgenstein (1889-1951) 語言哲學奠基者

  1. "Meanings" are not linked to words.
  2. "Meanings" are not concepts or any other single thing.
  3. To understand a word means to know when to use it ... and how to use it.
  4. Meaning is not the same as use, but emerges through use.
  5. Context and circumstances are often essential determinants of meaning.
  6. We assume that the individuals with whom we talk will cooperate with us and follow Grice’s maxims.

4. Externalism(形式主義)與語言哲學

  1. Internalist 內在主義者: philosophy of mind 內心的運作、處理過程
  2. Externalism 形式主義: there are many external facilities or processes that are necessary for cognition. 認知需要許多外在工具與過程
    1. 輔助認知的工具:紙筆之於數學計算 → 資料檢索之於資料庫
    2. “Twin Earch” thought experiment (Putnam, 1975): different people will call different things by the same name
  3. Scaffolding 鷹架建構: provides external augmentation for intelligent activity, enabling us to achieve outcomes that would be difficult or impossible for a single, unassisted individual.
    • Enable several individuals to work together to perform a complex task.

5. Scaffolding(鷹架建構)與資訊檢索

  1. The particular searching procedures and the explicit or implicit theory of representation used by an information retrieval system can, quite literally, become extensions of the cognitive processes of inquirers --this can be either good or bad.
  2. A simple full-text retrieval system does an unnatural way
    • Forcing the searcher to predict the exact words and phrases that occur in the desired documents.
    • People are quite good a t remembering proper names and approximate time frames.
    • Forgotten characteristics: Records should be continually ranked by their importance and less important ones regularly weeded out and forgotten.

6. 語言哲學應用到資訊檢索

6-1. The Significance重要性
  1. Contexts of activities and practices: If we want to know what the descriptions used to represent a document mean, we must examine how these descriptions are used in the activities and practices that use that information.
    • 但是系統通常把資訊跟情境當成兩回事
  2. Bring context into descriptions: If information retrieval systems cannot be physically near the activities and practices they support, then it may be useful to bring some of this context into the descriptions of the documents themselves.
  3. More real-time mode: it would be useful to develop procedures that use searcher feedback to adapt document descriptions.
  4. The danger with scaffolding: taking advantage of certain technical resources or efficiencies, we may actually force searchers to act in unnatural or problematic ways.
  5. From description to discrimination: The notion of "term discrimination" considered here is not just a comparison of term frequency occurrences, in which a term that occurs in just one document in the collection is considered a good discriminator and a term that appears in all the documents is not.
6-2. Writings 相關研究
  • Blair (1990) "Language and Representation in Information Retrieval" 資訊檢索中的語言與呈現: an extended argument for the importance of the problem of representation in information retrieval.
    • Blair and Kimbrough (2002) “exemplary documents示範文件: provide a guide to the intellectual content of many of the documents.
  • The theory of Illocutionary, or Speech, Acts 語內表現、演說、動作: a class of linguistic events (Speech Acts) exists that has predictable structures and processes.
    • Directives 指令: In which we order others to do things
    • Commissives 委任: In which we promise to do something
    • Declarations 宣告: In which we bring about changes in the world solely by our utterance
    • Expressives 陳述: In which we express our personal feelings and attitudes
    • Assertives 假設: In which we make statements, truly or falsely, about how things are
  • Relevant 相關: model formal relationships in language
    • Cooper (1971): minimal premise set 最小前提集
    • Wilson (1973): situational relevance 情境相關

感想

  • 不是很好理解的一篇文章,總覺得探討太多哲學問題會造成無限上綱的困境。在應用研究上,文獻探討應適可而止。

這篇光是語言哲學就講了26頁。當故事看還算有趣,但看完也很難跟人家說明則是個問題orz

(more...)

Relevance: The whole history 「相關」歷史回顧

布丁布丁吃布丁

Relevance: The whole history 「相關」歷史回顧

image

Mizzaro, S. (1997). Relevance: The whole history. Journal of the American Society for Information Science, 48(9), 810–832.


1. Introduction

1-1. Why to write this article?
  1. Relevance is one of the central concepts for documentation, information science and information retrieval. 「相關」很重要
  2. Relevance’s history is very useful for understanding what relevance is. 歷史便於理解「相關」
  3. There is no recent paper that describes in a complete way the history of relevance. 最近缺歷史回顧文獻
  4. This work can be situated at a higher level than the above mentioned surveys 這份回顧要比前人寫得更好
1-2. How to write it?
  1. 範圍限制:documentation, information science, and information retrieval
  2. As objective as possible 盡量客觀
  3. Not only to present the history of relevance, but also to give a framework for understanding the history and the concept.

2. A Framework for Various Kinds of Relevance

2-1. 分類框架

相關 = 第一組要素 + 第二組要素 in 三種組成成分

  1. 第一組要素
    • Document 文件: 使用者找到的實體資料
    • Surrogate 中介資料: 呈現文件的資料,如作者、書目資料、摘要等
    • Information 資訊: 使用者閱讀文件之後接收的資訊
  2. 第二組要素
    • Problem 面臨問題: 使用者所面臨的問題,需要資訊來解決
    • Information need 資訊需求: 使用者內在的需求,可能無法對外表述
    • Request 請求協助: 使用者用自然語言表達資訊需求
    • Query 系統查詢: 使用者用系統語言查詢資料
  3. 三種組成成分
    • Topic 主題: 使用者關注的主題領域,例如特別是在資訊科學或檢索
    • Task 任務: 註明使用者的動作
    • Context 情境: 除了主題跟任務之外其他事務,像是地點、結果評估

image

2-2. Relevance judgment 相關評判
  1. The kind of relevance judged;
  2. The kind of judge (user and non-user);
  3. What the judge can use (surrogate, document, or information) for expressing his relevance judgment
  4. What the judge can use (query, request, information need, or problem) for expressing his relevance judgment.
  5. The time at which the judgment is expressed.

3. 相關歷史分類說明

  1. 時代區分:大約20年一個間隔
    • Before 1958, 1959-1976, 1977-present (1997)
  2. 研究類別區分
    • Fundations 基礎研究: be defined from different standpoints, using different mathematical instruments and conceptual approaches.
    • Kinds 類型研究
    • Surrogates 中介資料研究: The type of surrogate used can affect relevance judgments
    • Criteria 評鑑研究: 從使用者角度來進行相關評判
    • Dynamics 變動研究: 相關會受到時間影響
    • Expression 表達研究: 什麼方法呈現相關評判結果才是最符合使用者需求
    • Subjectiveness 主觀研究: 不同相關評判間是否一致;不同使用者間的相關評判是否一致

4. 相關的歷史

4-1. Before 1958
  1. 相關資訊的問題剛被發現,但尚未成為聚焦討論的議題
  2. 相關研究: Lotka (1926), Bradford (1934), Zipf (1949), Urquhart (1959), Price (1965)
  3. 相關的正式基礎: Pritchard (1969)的書”bibliometrics”
  4. IR先驅者: Mooers (1950), Perry (1951), Taube (1955) and Gull (1956)
4-2. 1959-1976
  1. 回顧文章: Saracevic (1970~1976), Schamber et al (1990)
  2. Foundations: 奠基未來研究基礎
    • Probabilistic retrieval 機率檢索: Maron and Kuhns (1960)
    • Mathematical logic 數學邏輯: Cooper (1971) and Wilson (1973)
    • The user’s sotck of knowledge 先備知識: Rees (1966) and Wilson (1968)
  3. Surrogates: Quality & Surrogate’s length: 越長品質越好?
  4. Expression: 不同的相關評判適用不同的表達方式
  5. 重要學者: Cuadra & Katter; Rees & Schultz
4-3. 1977-Present (1997)
  1. Foundations
    • User-oriented, cognitive approaches (Schamber et al., 1990; Harter, 1992) 使用者導向,認知取向
    • Defined a logic for IR (Rijsbergen, 1986~1989) 提出更複雜的模型
    • “paradox of relevance” -> “subjective, not measurable” 對立演變成主觀
    • Consider the relevance of a set of documents instead of a single document appear (Gordon & Lenk, 1991)
  2. Kinds
    • Many studies mistake system-relevance for topic-relevance, do not consider all the existing kinds of relevance.
    • Measure the until then retained unmeasurable relevances.
  3. Surrogates
    • 研究里程碑: The “length hypothesis” (Marcus et al., 1978) & Janes (1991)
    • surrogate-based relevance judgments tend to become similar to full-document judgments as the surrogate
  4. Criteria: user defined criteria & document characteristics
  5. Dynamics
    • The existence of a presentation order effect 次序效應
    • the dynamic nature of query, request, information need, and problem justifies at least in part the dynamic nature of relevance 相關變動的最後部分是請求協助、資訊需求與面臨問題
    • cognitive considerations based on learning, mental models, and criteria can explain the variations in relevance judgments 基於學習、心智模型、內心標準的認知思考可作為相關評判的變數
    • the time point at which relevance is measured 可測量的時間點
    • some mathematical models are proposed 數學模型
    • Iterative and interactive IRS: 高互動的檢索系統
  6. Expression
    • magnitude estimation (numeric estimation, line length, and force hand grip) is an effective and reliable method for expressing relevance judgments 數字呈現方式很有效率也很可靠
    • it is preferable to both category rating scales and dichotomous judgments. 分類度量與分歧判斷
  7. Subjectiveness: the conditions (features of the judges, but also criteria and dynamics) that lead to inconsistency.

Discussion 相關研究成長趨勢

  1. 從1960s年代到最近10年間研究持續增加
  2. 分類數量最多:foundations, kinds
    分類數量最少:surrogates
    其他分類數量差不多
  3. 分類foundations, criteria, dynamics, expression穩定成長

Conclusion

Relevance is a necessary part of understanding human information behavior. The field should be encouraged by commonalities across perspectives, not discouraged by disagreements. Relevance presents a frustrating, provocative, rich, and—undeniably—relevant area of inquiry. (Schamber , 1994)

感想

  • 非常有架構的review文章,清楚好閱讀!

這也是一篇review的好文章,不過相關好複雜啊,光看review很難懂(遮臉)

(more...)

客家文化研究生之資訊尋求行為: 資訊視域之觀點

布丁布丁吃布丁

客家文化研究生之資訊尋求行為: 資訊視域之觀點

image

陳川淼、黃元鶴(2011)。客家文化研究生之資訊尋求行為: 資訊視域之觀點。大學圖書館15(1),144–170。


1. 摘要

本文對11位客家文化研究生進行訪談,繪製資訊資源視域圖以呈現研究生找尋資訊的過程,辨識各資源所屬類型。歸納影響資訊行為的因素,包括個人背景、資訊認知程度、學術環境支援等。

2. Information horizons 資訊視域 (Sonnenwald, 1999)

  1. 命題:context情境、situation 狀況、social networks社會網絡
    1. 人類的資訊行為由個體、社會網絡、狀況和情境所形成。
    2. 個體能感知、反映以及評估他人或 自我等週遭環境的改變。資訊行為是個體基於知識缺乏時之一連串反應與評估的行為。
    3. 資訊視域處於一個狀況和情境之中,我們可以在當中採取行動。
    4. 人類資訊尋求行為,可以視為一種個體與資訊資源之間的協同合作。
    5. 資訊視域可由各種資訊資源組成,可視為多種解決問題的方案。在這些解決方案中,使用者會從中選擇最佳解決方案並採取最有效途徑展 開一連串的資訊檢索。
  2. 本研究專注於「資源」上,以訪談法調查受訪者取用的資源與其順序
    • 資源分類:人際資源、網路資源、電子資源(以網路連線至圖書館使用之資源)、組織資源(圖書館等)與其他資源
  3. NetDraw繪製資訊資源視域圖,並進行分析
    image
    1. 每個資源都是一個節點
    2. 依照使用資源的順序繪製節點之間的有向連線
    3. 計算各節點的提及次數、連結數、向外連結、向內連結
    4. 分辨資源節點類型
  4. 資源節點類型:
    1. 起點型:只有向外連結,係搜尋的起點,如客家電子報
    2. 推薦型:向外連結較多,引人找尋其他資源,如教授、同儕、家人等
    3. 平衡型:向外連結與向內連結均衡,如學科專家
    4. 聚焦型:向內連結較多,是主題確定之後主要搜尋的管道,如資料庫
    5. 終點型:只有向內連結,資訊尋求至此即開始寫作,如耆老
    6. 孤立型:不跟其他資源連線,如地方活動

感想

  • 本研究的資訊資源視圖無法看到不同情境與狀況下的改變。由於每位研究生處理的問題與狀況有所不同,所以資源節點連結的順序也會有所差異,這是需要更嚴謹探究的地方。
  • 社會網絡分析實在是很有趣,連資源搜尋也能用這種方法來繪製。同理也可以應用到其他地方,例如行為改變上。

NetDraw的Products網頁裡面把UCINET 6的類型寫作$$$$,實在很搞笑XD 不知道NetDraw好不好用呢?

(more...)

Inside the search process: Information seeking from the user’s perspective 從使用者觀點看資訊檢索

布丁布丁吃布丁

Inside the search process: Information seeking from the user’s perspective 從使用者觀點看資訊檢索

image

Kuhlthau, C. C. (1991). Inside the search process: Information seeking from the user’s perspective. Journal of the American Society for Information Science, 42(5), 361–371.


1. 前言

  1. 傳統的資訊尋求是在bibliographic paradigm書目典範中,是為了集中與排序,但對使用者來說則是充滿不確定跟困惑的問題
  2. Information Search Process (ISP) 資訊搜尋處理:
    the ISP is the user’s constructive activity of finding meaning from information in order to extend his or her state of knowledge on a particular problem or topic.
    為了擴展對問題主題的認識,找資訊的行動過程
  3. Information seeking 資訊尋求:a process of sense-making in which a person is forming a personal point of view (Dervin, 1983)
    形成個人觀點的決策過程

2. ISP的理論基礎

  1. Phases of Constructions建構階段(Kelly, 1963)
    1. 「困惑」常常導致對於新資訊的「質疑」;因為新資訊太過分散而導致「恐懼」
    2. 此時,個人會提出「假設」與測試取得新的知識架構,進而對暫時的假設進行「重組」
  2. Levels of Need 需求層次 (Taylor, 1963; 1986)
    1. Visceral 內藏需求但無法表示
    2. Conscious 腦中浮現需求
    3. Formal 外顯陳述
    4. Compromised 組織查詢語句
  3. Levels of Specificity 具體表達層次 (Belkin, 1980):ASK (Anomalous State of Knowledge)假設
    1. 低層次:提出問題與經驗的需求
    2. 高層次:能以較準確的命令提出資訊的需求
  4. Mood 情緒 (Kelly):
    1. Invitational 被引導的:根據吸收的資訊,開啟新想法與接收改變
    2. Indicative 直接的:根據現有建構的資訊,拒絕新資訊研究ISP情感與認知層面的方法論

3. ISP的6個階段

ISP階段

Feelings 感受

Thoughts 想法

Actions動作

根據Kuhlthau Model的合適任務

1. Initiation 起始 Uncertainty 不確定 General / Vague 模糊 Seeking Background Information 找大範圍資料 Recognize 認識
2. Selection 選擇 Optimism 樂觀的     Identify 辨識
3. Exploration 瀏覽 Confusion / Frustration / Doubt 困惑質疑   Seeking Relevant Information 找相關資料 Investigate 調查
4. Formulation 提出查詢 Clarity 思路清晰 Narrowed / Clearer 清晰窄化   Formulate 闡述
5. Collection 蒐集資料 Sense of irection / Confidence 有信心的 Increased Interest 增加興趣 Seeking Relevant or Focused Information 找聚焦資料 Gather 取得資料
6. Presentation 表達 Relief / Satisfaction 滿足 or Disappointment 失望 Clearer or Focused 聚焦   Complete 完成任務

4. 理論與實際研究的差異

  1. 群體之間的差別:比較公共圖書館、學術圖書館與學校圖書館的使用者
    • 公共圖書館使用者在資訊尋求初期較學術或學校圖書館有信心
    • 大學圖書館的學生在資訊尋求末期較高中圖書館的學生有信心
  2. 任務認知上的差距:受試者在各階段進行的任務與預期有很大的不同
    • 受試者提蒐集、完成任務
    • 研究發現,許多人在進入表達或寫作階段時,對主題都尚未清楚聚焦

5. 未來研究

  1. 驗證資訊搜尋處理的模型
  2. 確認使用者在搜尋中進行的任務,以及他們的實際體驗
  3. 比起被強迫指定作業的資訊需求,也需要研究需求來自於自身的情況,例如不是上課的成人
  4. 研究資訊搜尋過程中,搜尋成果跟認知、情感方面的關係

6. 討論:Anxiety焦慮

  1. 焦慮:通常跟缺乏資訊資源與技術的知識有所關連
  2. 預防使用者的不確定,可以改善ISP前期的狀況
    • 資訊系統需要發展出辨識使用者在ISP各階段的問題,並提供不同的搜尋策略,像是初步認識、瀏覽探索、全面搜尋、檢索摘要等

感想

  • 最後的討論非常值得讓人深思,資訊系統應該更加個人化地輔助使用者的檢索歷程,而不是一個單純的工具。
  • 題目方向:以使用者的焦慮程度與他所執行的資訊行為,辨識使用者在ISP各階段的特徵,製作資訊系統預測使用者所處的ISP階段的模型

以往資訊檢索都是站在系統的角度來設計,不過Kuhlthau則是呼籲大家要從使用者為中心,這是很重要的轉變。讀的時候文中有挺多的抽象形容詞讓我難以理解,我還需要再加油。

(more...)

Information behavior 資訊行為

布丁布丁吃布丁

Information behavior 資訊行為

image

Case, D. O. (2006). Information behavior. Annual Review of Information Science and Technology, 40, 293.


1. 前言

  1. Information behavior 「資訊行為」的定義: “the totality of human behavior in relation to sources and channels of information, including both active and passive information seeking and information use.” (Wilson, 2000)
    跟資訊來源與頻道相關的人類行為,包含主動與被動的資訊搜尋與使用。
  2. 涵蓋範圍:2001-2004
  3. 文獻來源:
    • 電子資料庫:Wilson’s Library Literature and Information Science Full Text
    • 印刷與電子期刊:The New Review of Information Behaviour Research and Information Research
    • 其他手動蒐集的相關主題出版品
  4. 收錄限制:
    • 排除特殊研究:特定領域(site-specific,如個人圖書館)、特定系統、特定服務(如只限於從家裡存取網路的方法)
    • 特別收錄網際網路使用研究:只含括使用多種來源的媒體與有所互動的情境下
    • 不收錄已經被探討過:資訊取用、搜尋行為、電子期刊使用、搜尋引擎

2. ARIST回顧資訊尋求(information seeking)的歷史

  1. 零星介紹 (1966-1978):在個別文章中提及「資訊尋求與使用」
  2. 綜合回顧 (1986-1990):Dervin & Nilan (1986)與Hewins (1990)
  3. 專業分化 (1990-2002):資訊系統、服務與技術;瀏覽、資訊守門員;搜尋行為心智模型、方法、情境
  4. 綜合回顧 (2002):Case(2002)回顧1990s之前的研究

3. Information Seekers by Occupation 研究對象

3-1. Scientists 科學家
  1. 通常都是對單一學科、觀察小樣本科學家的資訊蒐集行為
  2. 對於科學家的研究已經做很多了,沒特別新的發現
3-2. Engineers 工程師
  1. 對工程師的研究深度加深:Fidel & Green (2004)發現可取用性(accessibility)是影響工程師選擇資訊的主要因素
  2. 可取用性的定義又可有「節省時間」跟「熟悉程度」等不同的面向,引發其他研究深入探討
3-3. Scholars 學者
  1. 對不同領域的學者進行研究很常見,現在研究的取樣範圍也逐漸擴大:
    • Talja (2002)面試護理專家、歷史學家、文獻學者、環境科學家等不同人
    • "scholars define their research areas and disciplines through social interaction and that collaboration and information sharing are essential aspects of scholarship."
      發現學者透過社會互動定義研究領域與學科範圍,而且資訊分享是學術的基本
  2. 社會科學家、人文學者、音樂家等資訊行為也是頗受重視。
3-4. Managers 管理階層
  1. 描述資訊行為的詞彙:scanning (掃描=資訊尋求)、sense-making (意義建構)
  2. Choo (2001)建立企業組織中的資訊搜尋模型,包括需求、尋找、使用、組織策略以及外部情境
  3. Mackenzie (2003)發現管理者傾向於取用他們不需要的資訊,只為了加快決策的速度,因為他們覺得蒐集資訊可以長知識。
  4. Hirsh & Dinkelacker (2004) 發現節省時間、權威性與方便性是影響資源選擇的主因;即時、可依賴與熟悉程度則比較不重要。
3-5. 其他
  1. 律師:Wilkinson (2001)發現它們喜歡非正式與內部的資訊來源
  2. 看護:Cogdill(2003)發現看護人員需要常用藥物治療法與參考資源、看護病人的診斷書、規定手冊
  3. 醫院社會工作者(醫生與病人):Harrison, Hepworth與de Chazal (2004)發現他們常處於information poor (資訊貧窮),大多用口耳相談交換資訊,而非透過網路找尋有用資源

4. Information Seekers by Role 角色

4-1. The General Public 一般大眾
  1. 1970s與1980s幾個大規模的研究後,現在較少對一般大眾的研究。
  2. Pettigrew、Durrance與Unruh (2002)調查認為即使介面設計、組織、權威、即時、隱私等其他因素都很不佳,社區組織網路還是很有用
  3. 網際網路成為新興議題:Kaye & Johnson (2203)發現網際網路快要成為電視、廣播與雜誌的替代品。但Hektor(2003)指出網際網路只是各種管道的一種,而非唯一的來源
  4. Julien & Michels (2003)研究個人私密資訊行為,發現時間限制、動機、情境、起始事件類型、位置、資訊應用目的、資源類型都是影響的因素
4-2. Patients 病人
  1. 看護、病人對於健康資訊的需求與特殊的病人等研究越來越盛行
  2. Rees & Bath(2001)提出Monitoring/Blunting Scale (MBS):
    • Monitoring 監控:檢視環境潛在威脅
    • Blunting 遲鈍:忽略或使人遠離威脅資訊
  3. Warner & Procaccino (2004)研究大量女性,得到下資訊來源的取得順序:
    • 醫師;藥師或健康書籍;擁有相同病況的人;家人或朋友;護士或製藥商;網站;公共圖書館
  4. Baker(2004)發現末期病患需要資訊來面對臨終與死亡,但需求會反映在生理、情緒、精神、經濟等個人因素上
  5. 癌症病人的研究:Johnson、Andrewes與Allard(2001)提出一個研究癌症病患的癌症基因資訊尋求的模型
4-3. Students 學生
  1. 學生資訊行為研究眾多,幾乎都跟「學習」有所關連
  2. Gross & Saxton(2001)發現「imposed 強迫式」資訊行為模式:由一人(通常是老師)提出問題,另一人(通常是學生)幫忙解決。
  3. Whitmire (2003)發現學生對主題的認識方式影響他們如何選擇、尋找、評鑑資訊,以及辨識資源的權威性
  4. Henstrom (2003)分析五種影響資訊行為的個人內在認知面向:neuroticisim神經質、extraversion 個性外向、openness to experience 投入體驗、competitiveness 競爭性、conscientiousness 責任心
4-4. 其他角色:Hobbyists 特殊嗜好
  1. Hobbyist cooks烹飪嗜好者:Hartel (2003)
  2. 族譜研究者:Yekel (2004)、Duff & Johnson (2003)

5. Information Seekers by Demographic or Social Group 社會族群

5-1. Children and Youth 幼童與青年
  1. 研究從圖書或網路使用,擴大到探討孩童認知、學習與社交層面
  2. Cooper (2002)發現7歲幼童在圖書館找書是看封面而不注重內容
  3. Shenton & Dixon (2003)提出青年的資訊尋求模型,特別著重於來自周遭他人的資訊來源
    • Agosto & Hughes-Hassell 也發現朋友跟家人是青年優先的資訊來源
5-2. 其他族群
  1. Immigrants 移民者、the Poor 貧窮者、the Homeless 遊民、Women 女性、The Elderly 老年人

6. Metatheory, Theory and Models 高層理論、理論與模型

  1. 帶入理論與高層理論的觀察研究,是從Fisher、Julien與Duggan (2000)、McKechnie (2002)等人開始
    • Ford (2004)注重研究的主題性;Abbott (2004)思考分類與檢索議題之間的關聯
    • Hjorland(2004)分析目標與主題對於資訊行為的相關性
  2. “context” or “situation”:Johnson (2003)與Cool(2001)都有寫過長篇回顧
  3. 資訊行為的模型與理論回顧:Pettigrew、Fidel與Bruce (2001),包含認知、社交、或多方面的
  4. ASIST出版的Theories of Information Befavior (Fisher, Erdelez & McKechnie, 2005)描述超過70個資訊行為研究可用的理論
  5. Hall (2003)認為從其他領域借理論來用,例如Social Exchange Theory
  6. 各種理論與模型的分析:Jarvelin & Wilson (2003)

7. Methods 研究方法

  1. Wilson (2002)為研究方法分類:以觀察作為資料蒐集的根本方法,分成直接跟間接變項,然後將各方法分成民族誌觀察(ethnographic observation)、問卷調查、訪談等常見方法。
  2. Baker等人(2002)分析1993到2000共247篇人類資訊行為相關文章
    • 35%:訪談
    • 20%:問卷
    • 14%:觀察
    • 12%:內容分析
    • 其他19%:日記、交易記錄、焦點團體、放聲思考("think aloud" protocols)、二次分析( secondary analysis)、實驗測試、書目計量、話語分析(discourse analysis)

8. 結論

  1. 研究數量越來越多,包括個人與社群、情境與社會影響、個人資訊與描述的深度加深
  2. 研究朝向國際化、概念化;研究的典範也從靜態的需求與使用轉變成動態的個人與情境導向
  3. 資訊行為的分化與專業化,讓人對「資訊行為」的概念薄弱

感想

  • 這篇review的寫作模式觀察
    • 從定義、範圍、架構開始說明,然後一一從分類介紹研究;
    • 每一篇研究講述作者、研究對象與問題、提出重要的結論與發現;
    • 當多篇研究有共通點時,講述共同的趨勢;
    • 參考其他review作為分類各種研究的依據;
    • review研究也是重要的研究文章
  • 架構清楚,文章有條理,因此很容易就懂這篇文章要說什麼。
    • 但是因為感覺許多研究都很重要,反而讓人難以知道重點在哪裡

之前就一直很想好好讀ARIST的文章,不過實際上是到這時候才好好地讀。讀完之後獲益良多,真的是ARIST專出好文。

(more...)

浅析 OCLC 的 FRBR 作品聚集算法

布丁布丁吃布丁

浅析 OCLC 的 FRBR 作品聚集算法

image

张俊娥(2006)。浅析 OCLC 的 FRBR 作品聚集算法。大学图书馆学报24(006),66–69。


FRBR概念模型實體層次

image

FRBR 作品聚集算法

  • 書目記錄→作者 / 題名鍵 (author / title key),再來計算叢集
  • 步驟一:資料前處理:擷取與整理
    1. 準備權威對照 (Authority Mappings):利用LC的名稱權威檔 (LC Name Authority File)
    2. 建構權威鍵 (Constructing Authority Keys):從書目中抽取作者與題名資料
    3. 透過名稱權威檔過濾,統一作者與題名
  • 步驟二:建立作品集鍵(Work-Set Key),最終可產生以下四種形式:
    • 作者 / 題名
    • 統一題名
    • 題名 / 一個或多個作者
    • 題名 / OCLC控制號
  • 步驟三:以作品集鍵,建構叢集
    • 舉例來說,透過以上步驟,下列五筆作品集鍵都有相同題名,但不同作者:
      1. Title / Author A
      2. Title / Author A / Author B
      3. Title / Author B / Author C
      4. Title / Author C
      5. Title / Author D / Author E
    • 依據作者不同,可以分群成a b c d跟e兩群

感想

  • 與其說是分群演算法,不如說資料前處理的手續更為重要吧。
  • 意外的是,年代、出版地、出版者等其他有用的資料居然沒有納入考量,這樣的分群演算法還有很大的改善空間。

因為看了上一篇「Derivative bibliographic relationships」之後,想要找一下有沒有書目關連的相關技術研究。不過這篇有點像是演算法的中文說明版,倒不像是研究論文啊?

(more...)

Derivative bibliographic relationships: The work relationship in a global bibliographic database 全球書目資料庫(World Cat)中的作品關連分析

布丁布丁吃布丁

Derivative bibliographic relationships: The work relationship in a global bibliographic database 全球書目資料庫(World Cat)中的作品關連分析

image

Smiraglia, R. P., & Leazer, G. H. (1999). Derivative bibliographic relationships: The work relationship in a global bibliographic database. Journal of the American Society for Information Science, 50(6), 493–504.


1. 研究背景

  • 書目實體 (bibliographic entity):書目控制與檢索的核心單位。
    書目實體也包含兩類型的屬性:
    • 實體 (physical):尺寸、材質、傳輸模式(印刷品或磁帶等等)
    • 意義 (intellectual):標題、作者、出版細節。
  • 作品 (work):書目實體的意義內容。
    作品也包含兩類型的屬性:
    • 概念內容:主題
    • 語義內容:呈現方式,例如音樂的。
  • 作品與作品之間有所關連:例如不同出版社但是內容卻相同。
    • 提供作品關連,有助於使用者在目錄中找尋資料。

2. 文獻探討:書目家族的研究

  • Leazer (1993):作品之間存在著複雜的關聯網路。
  • Tillett (1991) 建立了書目關連的分類
    • 分析美國國會圖書館(LC)的目錄
    • 發現目錄中介於11.2%到19.4%的作品有延伸書目關連 (derivative bibliographic relationships)。
  • Smiraglia (1992, 1994) 繼續深入研究書目關連
    • 分析Georgetown University Library (GEORGE,OCLC目錄OLUC的一部分)與Research Libraries Information Network (RLIN)目錄
    • 發現49.9% (±4%)的作品有延伸書目關係
    • 書目家族中各別有1到127筆成員書目,平均為4.7筆。
    • 「延伸書目關係」(derivative bibliographic relationship):存在於一個新作品與其原始來源(始祖書目 progenitor),或是他的後繼書目(successor),或是包含這兩者的全新概念。
    • Smiraglia將延伸書目關係分類:
      • 同步延伸(simultaneous derivations):作品同時發佈成兩種版本,或是在很近的時間內發佈。
      • 後繼延伸(successive derivations):作品經過修改後發佈了後續的版本,或是由新的作者撰寫。
      • 翻譯
      • 擴大延伸(amplification):包括文字加上繪圖、音樂設定,或是評論、索引、注釋。
      • 擷取延伸(extraction):摘要、縮寫本、節錄。
      • 改寫延伸(adaptation):包括簡編、電影劇本、歌詞、音樂作品的改編、或是其他修改版本。
      • 演出延伸(performance):包括音樂與視訊的紀錄。

3. 研究問題

  1. WorldCat中有多少作品是書目家族的成員?
  2. WorldCat中每個書目家族有多少筆成員數量?有多少延伸關連?
  3. 書目特性(像是年代、格式、分類、學科領域等)跟延伸書目關連是否有相關?
    • 年代有統計顯著低度相關:書目家族成形通常都在始祖書目發表之後的近期間
    • 格式有統計顯著低度相關,但因為未能辨識的資料過多而有失準確。其中60%教科書(textbook)都有延伸作品,報告跟論文則比較少延伸作品
  4. 延伸書目關連的發生頻率為何?
  5. 每個書目家族中的關連複雜度為何?是否會隨著時間改變?

4. 研究方法

  1. 從WorldCat中隨機抽樣1000筆書目,從中篩選出477筆始祖書目
  2. 根據始祖書目,找尋WorldCat中其他的關聯書目,建構書目家族
  3. 記錄書目特性:年代、語言、出版地、格式、分類、媒體、學科領域
  4. SPSS分析

5. 研究結果

  • 樣本敘述:英文佔2/3、來自美國佔1/2、1960年代之後佔2/3、70%格式無法辨識、書本佔90%
  • 回答問題1:大約有30.2% ± 4.1%筆書目是書目家族的成員
  • 回答問題2:30.2%的家族只有2筆成員,平均3.54筆。69.8%的始祖書目沒有延伸作品
  • 回答問題3:與延伸書目關連有統計顯著相關的書目特性只有年代跟格式
    • 年代有統計顯著低度相關:書目家族成形通常都在始祖書目發表之後的近期間
    • 格式有統計顯著低度相關,但因為未能辨識的資料過多而有失準確。其中60%教科書(textbook)都有延伸作品,報告跟論文則比較少延伸作品
  • 回答問題4:由於音樂跟文學作品較多的關係,表演跟改編的關係也較常發生
  • 回答問題5:家族數量與關係複雜度呈現統計顯著的低度正相關

感想

  • 研究資料庫書目資料時,有太多變數是需要去克服。此篇遭遇到1.關連難以判斷;2. 格式與學科分類資料欠缺的問題,有部分分析結果並不是很漂亮。
  • 與其說這篇論文是在介紹書目關係分析方法,不如說是詳細探討WorldCat收錄的資料特性,並與前人比較。不禁讓人疑惑,如果我換了一個資料庫做研究,那看來又會是完全不同的世界。
  • WorldCat國際化後加入了各國書目,相信這時候再做書目關連分析會更有效果。

讀了一些歷史回顧型的文章之後,終於又接觸到實證型的研究論文,看著一堆數字跟表格,讀起來格外懷念。

(more...)

What is a collection? 什麼是「館藏」

布丁布丁吃布丁

What is a collection? 什麼是「館藏」

image

Lee, H. L. (2000). What is a collection? Journal of the American Society for Information Science, 51(12), 1106–1113.


1. 前言

  • 隨著科技進步,WWW網際網路與數位資源改變了「館藏」的內容,因此作者嘗試擴大「館藏」(collection)的定義。

專有名詞

  • Collection / subcollection 館藏 / 子館藏
  • Collection developer 館藏發展者
  • Information 資訊(電腦方面)、圖資(圖書館方面)
  • intermediation / disintermediation 經過篩選的館藏目錄 / 所有資訊

2. 「館藏」的傳統定義

2-1. 明確性 (tangibility)
  • 實體物品:書本、手稿、叢書、政府出版品、手冊、目錄、報告、檔案、微縮片、穿孔卡片、電腦磁帶。
  • 現在館藏的概念已經從印刷資源擴大到非印刷品及電子資源,但是傳統印刷品的印象仍深深地影響著館員。
  • 發展館藏的目的是為了滿足使用者資訊需求。在此目的下需要考慮以下議題:
    • 使用者是如何看待館藏?
    • 館藏發展者是如何發展館藏?
    • 館藏如何協助資訊尋求行為?
2-2. 持有性 (ownership)
  • 持有性通常是館藏的範圍界線
    • 傳統定義中,館際互借不算是擁有館藏。
    • 館藏服務範圍之外的使用者往往都是二等公民
  • 持有性是否為館藏的必要條件?
    • 寄存也是館藏:美國公共圖書館有許多出版社寄存的書籍,不算圖書館擁有,但是館員跟讀者會將之視為館藏之一
    • 館藏發展政策考量:館際互借不在政策之中,但電子資料庫則是。
    • 可重複使用:館際互借的資源只能讓一人使用,電子資料庫可讓多人使用。
    • 「擁有」光碟資料庫,通常難以整合到OPAC。那比電子資料庫更難使用。
  • 作者認為,持有性不應該只是看擁有或沒擁有。出版者、館員、資安專家與使用者對持有的看法都不相同。而使用者只在意能否存取與方便性而已。
2-3. 使用者社群 (a user community)
  • an effective collection must be developed with a solid understanding of its community information needs (Curley & Broderick, 1985).
    有效的館藏是基於對社群資訊需求的明確認知之上。
  • 作者認為Yahoo網站分類就是樣樣通、樣樣鬆
2-4. 整合檢索機制 (a unified retrieval mechanism)
  • 資源往往是分散各地,因此需要一套整合的檢索機制來查詢四散的館藏。
  • 聯合目錄 (union catalog):將各個子館藏的資料縮減,成為可瀏覽的全部館藏。
  • 整合檢索機制的隱憂:找不到資料,但實際上有資料
    • 資料可能尚未轉換成機讀格式
    • 格式太特殊而無法編入OPAC
    • 網際網路的外連資料也沒有編入
  • 檢索機制的整合仍有待努力:使用者即使用OPAC,仍不免時常更換多個資料庫

3. 數位媒體對「館藏」定義的挑戰

3-1. 是否需要館藏目錄? (disintermediation)
  • 無限館藏 (finite collection):科技進步,使用者將有一天可以自行選擇資源,而不需依賴圖書館發展的館藏。
    • 會有資訊超載(information overload)問題,因此還是需要發展優質的館藏 (intermediation)
  • 如何發展館藏?
    • 電腦在現代中仍有不少限制
    • 專家篩選與機構考量等仍是影響館藏發展的常見要素
3-2. 數位環境中的模糊界線
  • 超連結 (hypertext technology):如果編入館藏目錄的A資源,內有連結到B資源,那麼B資源是否算是館藏目錄的一部分?
  • 數位資源的易變動性,與傳統資源有很大的差別。

4. 對「館藏」的延伸概念

  • 主要概念架構
    • 以資訊尋求的觀點來看使用情境與互動
    • 以使用者為中心:使用者在意的是否能夠直接取用
4-1. 館藏發展者的觀點
  • 館藏發展政策:資訊資源的館藏發展應該是要有一套含括所有館藏相關要素的政策,包括使用社群定義、館藏範圍、格式、以及深度。
  • 關連:多個館藏之間彼此有所關連,而有些館藏是其他館藏的子集合。
  • 管理:館藏發展者專注於管理館藏及其子館藏,讓主要使用者能夠直接且方便地存取館藏資源。
  • 合作:同時,館藏發展者與其他資訊服務合作,擴大館藏內容,以協助使用者存取更廣泛的資源。
  • 多變性與分散性:館藏資源有多種形式,可能會是實體上被分割的或是擁有多個部分。
  • 整合檢索機制:所有資源應該有統一的檢索機制,以方便瀏覽與存取館藏。
4-2. 使用者的觀點
  • 館藏就是一個設計良好的整合檢索機制
    • 可取用沒有實體的數位資源
    • 可自訂館藏內容的排列,以滿足社群或個人的資訊需求
    • 可透過單一介面存取

5. 未來研究方向

  1. 確認館藏是一個資訊檢索的情境,而非一堆物件的組成。
  2. 考量使用者對於館藏的看法,而不只是館藏發展者而已。
  3. 資訊尋求行為成為重要議題:探討使用者如何與館藏互動。

感想

  • 有些技術問題隨著時代演進又有些不同。雖然作者用概念的方式分析,但結論還是很模糊。
  • 作者最後的結論是以「取用」的角度來定義「館藏」,但「取用」往往會受到法律的影響。從法律的角度深入分析資源本身的智慧財產權、使用權、擁有權等各種權益的範圍,比較不同時代各供應商販售實體與數位資源的方式,應該會對館藏有更具體的概念吧。

很多資訊系統也會用Collection這個詞喔,大家在翻譯時要考量情境做調整呢。

(more...)

全球經濟與國際電信網路

布丁布丁吃布丁

全球經濟與國際電信網路

image

伽摩利珀、尹宏毅(2008)。全球传播(第2版)。新闻与传播系列教材。北京市:清華大學出版。

「全球經濟與國際電信網路」是「全球傳播」該書中的一篇論文喔。


現代以前的世界

  • 個人財物幾乎都是本地製造,只有貴重品才有運送
  • 難以分工、專業化

勞動分工

  • 促進專業化,提高產量
  • 缺點:相互依賴,要求協調與控制。在跨越地理空間時會發生嚴重問題
  • 需要現代通訊技術:勞動的全球分工與現代傳播技術之間有著複雜的關係

帝國主義

  • 13世紀,多極世界:國家力量中心是分散的、鬆散地結合
  • 14-15世紀,單極世界:英法等新帝國出現,幅員擴及全球
  • 新帝國與歷史早期舊帝國的差異:
    • 領地:舊帝國的領土相鄰,新帝國是遼闊與分散的
    • 剝削:舊帝國是掠奪與進貢,新帝國是商業手段(從殖民地取得原料、獨佔市場)
  • 製造殖民地結構性阻礙,阻止橫向關係
    • 大英帝國全球電報網路完全以倫敦為中心

電子帝國主義

全球傳媒流動
  • 背景:帝國主義時代結束
    • 第二次世界大戰之後
    • 殖民地獨立
    • 美國成為世界中心:以經濟跟文化為力量來源
  • 依賴關係:全球通訊依舊是以單一中心為主,缺少橫向連結
  • 文化入侵的爭論:偏向美國(中心)的文化(ex:電影)流向世界其他國家(邊緣地區)
    • (1970年代)反對單向流動,要求全球平衡
    • 美國反對:違背憲法第一修正案(言論自由保障)
      然而第一修正案僅保障佔有傳媒的大公司,而不是言論自由本身
越境數據流
  • 服務(會計、保險、廣告)仍侷限在本地範圍內
  • 服務型態改變:現代通訊技術
    • 實現跨空間、時間溝通交流,服務不必限制面對面
  • 美國成為全球商務活動指揮和控制中心
    • 製造生產業轉移到開發中國家
    • 美國當地投資研究開發、公司服務、管理以及其他協調和控制活動
  • 全球經濟中,自由貿易與自由傳播的不同觀點
    • 美國(贊成):自由貿易促進全球分工細化,自由傳播能夠協調全球不同地區的專業化部門
    • 開發中國家(質疑):自由貿易導致虛弱國家成為廉價原料與勞動力來源,造成永久依賴的處境;自由傳播削弱了國家主權

新興的網路結構

  • 傳統傳播技術:電視
    • 由上而下的方式:資訊源少、聽眾多,有利於集權化控制
  • 新興傳播邏輯:網際網路
    • 傳輸頻寬增加、成本下降,任何人都可以參與傳播
  • 網際網路結構性不平等
    • 中心─邊緣關係:16%富裕國家人口擁有97%網際網路主機資源
    • 美國傳輸商主控國際線路費用,美國資料輸出量遠大於輸入量
    • 以美國為中心的線路已經成熟,橫向線路難以競爭

講到圖資的歷史,有很大的部份會跟電信牽扯在一起。原本我是想要讀「Communication and Empire: Media, Markets, and Globalization, 1860-1930」這本書,可是因為自己程度太差實在是看不懂,所以只好換這本書來看一看。傳播史也真是有夠大的了。

(more...)

Enhancing the Cultural Record: Recent Trends and Issues in the History of Information Science and Technology 圖資學的歷史與趨勢

布丁布丁吃布丁

Enhancing the Cultural Record: Recent Trends and Issues in the History of Information Science and Technology 圖資學的歷史與趨勢

image

Williams, R. V. (2009). Enhancing the Cultural Record: Recent Trends and Issues in the History of Information Science and Technology. Libraries & the Cultural Record, 44(3), 326–342.


Introduction

  • 整理文獻的三種方式:
    1. by review of recent trends in research and writing 回顧研究與著作
    2. by indications of topics of current interest to some of te most active researchers 活躍研究者的研究主題
    3. idenification of isssues that need to be explored in future research 探索未來發展
  • Information Science and Technology (IST),涵蓋:
    1. 數位傳統研究、記憶研究、早期現代社會的文獻與資訊影響
    2. 電腦科學與電信

Trends in IST History

  • The Late 1960s to 1995:
    • 先驅者W. Boyd Rayward (1960s與1970s早期)
    • 越來越多研究者投注IST歷史:Pamela Richards (1980s)、Martha Hane Zachert & Williams, R. V. (1983)、Irene Farkas-Conn & Michael Buckland (1991)等
    • 相關領域:商業使用(Joanne Yates研究)與科技歷史(James Cortadau研究)
    • 統整:Geoffrey C. Bowker & Susan Leigh Starr; Buckland & Ziming Liu
  • 1995-2005:IST歷史成為重要議題且廣為人知的時期
    • 1990s末期三個重要研究:
      • Rayward (1996): The History and Historiography of Information  Science: Some Reflections
        用來自6位不同歷史學家的史料來探討IST歷史
      • Micbael Buckland and Trudi Bellardo Hahn: JASIS探討IST歷史的特別議題,資料來自16篇由15位不同作者撰寫
      • Garfield Fellow: 1. oral history interviews with IST pioneers; 2. organizing conferences
    • 1990s末期到2000s早期:英荷德各國研究者參與;科學與科技歷史家增加,少數圖書館歷史學家。
    • 1995~2005: 傳統歷史社群與科學與科技歷史學家更注意IST歷史

Recent and Current Historical Research in IST History

IST History Researchers in the United States
  • William Aspray: 女性在科技中的角色; 網際網路在美國商業的歷史
  • Geoffrey Bowker: memory practices(建立、記憶、知識遺忘) in geology (地質學), cybernetics (神經機械學), biodiversity (生物多樣性)
  • Micbael Buckland: Emanuel Coldberg(電子資訊檢索的權威)的主要書目
  • Colin Burke: IST歷史論文書目
  • Ron Day: The Modern Invention of Information (2001)
  • Trudi Bellardo Habn & Diane Barlow: 資訊科學的女性先驅者; 線上資料庫與資訊服務產業的回顧
  • W. Boyd Raywar: European modernism and the information society
  • Dan Schiller: How to Think about Information (2007); 美國資通政策歷史
The European Historians of IST
  • 英國 Alistair Black: MI5(英國安全局軍情五處)與特殊圖書館的間諜情報研究
  • Thomas Hapke: 舉辦資訊系統的歷史與遺產研討會; European modernism(歐洲現代化)的著作
  • Dave Muddiman: 從後現代觀點來看現今資訊專業者; 20世紀早期的文獻研究領域
  • Toni Weller: 19世紀英文資訊社會

Future Needs in IST History Research

IST history researchers
  • Aspray: 整合多學科:IST歷史、科學科技歷史、通訊歷史、電腦歷史
  • Black: 描述詞彙研究
  • Buckland: comparative librarianship (比較圖書館學)
  • Burke: "post-isms": discusses the advantages and disadvantages of historical interpretation
  • Day: historiographical methods
  • Hahn: women pioneers in IST
  • Hapke: German Society of Documentation before and after National Socialism
  • Muddiman: early information ages (1920-1980)
  • Rayward: the relationships between libraries and museums
  • Schiller: the role of information in business, government, and the military
  • Weiler: social and cultural history of information
Author’s views
  • 不能過分強調政府與非政府研究
  • 特殊圖書館的歷史,特別是醫學、醫學計量學
  • 國際機關、慈善機構與其他國際圖書館與資訊發展
  • 國際電信通訊公司與行政機構
  • 專業機構(SLA、ASIST、醫學圖書館聯盟等等)的歷史
  • 辨識不同的角色:information, library and information science, and information science in the educational philosophies of the disciplines of library and information  science, computer science, management information systems, and mass communications

這一篇只有17頁,可是講的是更大的歷史。所以很多歷史事件是有看沒有懂,需要再加油。

(more...)

Library and information science: An historical perspective 圖資學歷史

布丁布丁吃布丁

Library and information science: An historical perspective 圖資學歷史

image

Rayward, W. B. (1985). Library and information science: An historical perspective. Journal of library history, 120–136.


前言

  • 論點:Librarianship is a major component of a more general information science. (Machlup & Mansfield)
  • Patrick Wilson: 沒有資訊科學,只有 “a Bibliographical R&D Community”
    作者認為,圖書資訊學應該有合適的學術特色
  • 歷史法分析:從19世紀中期到20世紀中期

詞彙與翻譯

  • Information 資訊
  • Librarianship 圖書館事業
  • Bibliography 書目
  • Documentation 文獻學

Librarianship & bibliography (19世紀末)

  • 探討書本的歷史與文字載體
  • 1950s:書目的混沌時代
    • Paul Otlet: universal bibliographical repertory
    • Bibliographic control (1946)
    • Subject indexing

bibliography into documentation (1890s)

  • Universal Bibliographical Repertory by Belgians
    • the first faceted classification
    • Universal Decimal Classification (UDC)
  • Otlet引進詞彙 “documentation”: all aspects of the study of documents broadly conceived-books, periodicals, newspapers, bibliographies, administrative records of government, patents, industrial catalogs, indexes, abstracts, reviews-anything written or iconographic that could contribute to our sum of knowledge.
  • International Institute of Bibliography: 有效率搜尋與降低成本

Watson Davis & microfilm 微縮片

  • 提倡利用microfilm保存並集中管理文獻
  • American Documentation Institute (ADI, 1937): 用微縮片管理科學文獻和館際互借──Bibliofilm Service
  • 提出Universal bibliography的具體方案 (1937)
  • 圖書館學校開始教授微縮片的技術與管理服務

True graduate education (1937)

  • Graduate Library School at the University of Chicago
  • 強調在圖書館實務問題中應用嚴謹的研究方法
  • “library science” 名稱確立

二次大戰的影響(1930s – 1940s)

  • 研究量大增,文獻傳播需求帶來資訊處理上的問題
  • 戰後,政府致力於鞏固科學與技術資訊,不僅資助研究進行,也關心研究結果傳播的效率
  • Machine-dominated 機器為主的研究
    • ADI轉變成American Society for Information Science (ASIS),研究創新實驗機器
    • Machine-searching變成重要議題
    • Vannevar Bush "As We May Think" (1945)
    • Mechanical translation: 自動化語言翻譯

Documentation into information retrieval (1950s前期)

  • Wise and Perry (1950) "Multiple Coding and the Rapid Selector" : 討論檢索與分類,發展概念編碼
  • Perry (1950) "Information Analysis and Machine Searching":
    • documentation methods
    • new kinds of terminological expression for searching (Boolean)
    • documents and bibliography 形容為 “units” of “information”
    • "information correlation"
  • Calvin Mooers (1950) "Coding, Information Retrieval, and the Rapid Selector": 確立 "information retrieval"
  • Perry and Kent (1957) "Documentation and lnformation Retrieval": 資訊檢索系統的模型,包含分類與索引系統

圖書館的轉型:不只是藏書

  • “Bibliographic Organization” (1950): 傳統圖書館會需要更多工具,像是電腦或機器
  • Louis Ridenour “Bibliography in an Age of Science”: 應結合閱讀室、討論室、交流中心
  • Margaret Egan (1952) “The Communication of Specialized Information”:
    • 科技文獻搜尋需求改變了書目記錄研究的形態
    • 政府與企業開始了解特殊資訊的價值

Information sciences (1950s末期 – 1960s)

    • 由於政府大量資助,各種研究專家與產業興盛
    • 資訊科學成為跨學科領域,包含數學、電腦技術、電子工程與其他學科
    • Air Force對資訊科學詞彙的定義
    • Information is encoded knowledge
    • Information sciences is comprised, therefore, of the body of scientific knowledge, methodology and techniques necessary for the organization, transmission, transformation, evaluation, ordering, filtering and interpretation of information
    • Information systems ... must provide for the gathering, processing, and interpretation of intelligence data in restricted, tactical, and natural strategic contexts. . . . The predominant usefulness of future information processing systems will be in aiding the human in ordering and filtering and interpreting extremely complex situations and to propose to him, or even make for him, decisions he could not arrive at rationally ....
  • 電腦成為資訊科學與圖書館學的銜接者
    • Online revolution and the Growth of the information industry
    • Modern theoretical information retrieval research
    • Bibliometrics
  • Machlup and Mansfield 定義 “information science” 用詞
    • 廣義:It stands for the systematic study of information and may include all or any combination of the academic disciplines
    • 偏向電腦:"computer and information science"
    • 偏向圖書館學:"library and information science"
    • 狹義:改善科技資訊的傳播、資訊服務與系統的應用研究
      • 科學家與學者的傳播模式
      • 文獻成長與分布
      • 資訊交換的研究方法
      • 資訊存取控制
      • 資訊系統與網路的塑模與模擬
      • 使用者資訊行為
      • 人因系統設計
    • "information science" > "library science"

這篇文章並沒有分章節,而是直接一段一段地敘述整個歷史。上面的分節分項是我自己整理的部份,不過講起來還是頗為混亂,整理得不是很好啊。

(more...)

知識論

布丁布丁吃布丁

知識論

image

孫振靑(71)。知識論(初版)。臺北市:五南。


導論

  1. 「知識」包含三個意思:
    1. P是一件事實
    2. A相信P是一件事實
    3. A之所以相信P是一件事實,是有根據的。
  2. 「知識現象」三要素:
    1. 認知主體──自我
    2. 被認知的對象──客體
    3. 認知行為:包含肯定(是)
  3. 「知識論」描述性定義
    • 探求人類知識現象邏輯基礎,
    • 進而說明真卻知識的可能性本質及其範圍的一門學問。
  4. 「知識論」歷史
    • 先驅:亞里斯多德
    • 形成專門學問:康德
  5. 「知識論」是「形而上學」的基礎
  6. 研究知識的方法:折衷法
    • 找尋知識論起點:懷疑(笛卡兒)
    • 探討知識構成因素:批判(康德)

第一章 意識論:探討知識的可能性

  • 意識:人們對於自己和自己的內在行為的自覺
  • 意識的分類
    1. 直接(伴隨意識、直觀):
      • 對於當下的內在行為及行為主體的自覺或理會
      • 直接意識:模糊不清
    2. 反省:
      • 對於內在行為及主體進行反思,也能夠對直接意識加以反思
      • 反省意識:自絕地、刻意地、集中地→完成的意識
      • 必須透過表象或概念的媒介
  • 意識的對象:意識場
    • 意識自身、感覺、概念、判斷、情感、記憶、變化、持續、物、存在、有、自我、外界的物體、運動、延積,等等

第二章 感性論(知覺論):感知外界

  • 感性:
    • 認知:溝通內心與外界的橋樑
    • 對象:有形的物體
    • 方式:直接認知,直觀
    • 形成:物性知識的材料
  • 感性官能分類
    • 外感官:視官、聽官、味官、嗅官、觸官
    • 內感官:綜合感、想像力、估價感、感覺記憶
  • 「感覺」性質
    • 感覺是由客觀的原料與感官的模式互相配合而成
    • 構成感覺表象的要素,除了原料之外,還有感官的先天模式
    • 感覺表象事由主體根據客觀原料而形成的
    • 物體界的特徵:延積(空間)、運動(時間)、各種不同的性質

第三章 悟性論:(一)概念論

  • 普遍概念:
    • 涉類的概念:一類中的一切個體和每一個體
    • 普遍名詞:做為那一類中每一個體的謂詞
    • 根據意識的見證,我們具有普遍名詞,也具有普遍概念
  • 概念的內容取決於事物中的通性
    • 傳統實在論的主張事物中含有通性
    • 悟性偷過感性「抽得」事物的通性而構成概念的內容
  • 概念指涉:
    • 現象
    • 客觀實在
  • 普遍概念的探討議題
    • 「有」:本體論
    • 「動因」:指一個存在之物,以其自己的動作影響到另一物
    • 補足普遍概念不足:直觀體悟(理智的同情)、神祕經驗

第四章 悟性論:(二)原理論

  • 原理:比較普遍的判斷
  • 原理形成要素:
    • 後天的材料:概念所涉指的性質
    • 先天的模式:悟性的邏輯規律
  • 常見原理:
    • 不矛盾原理(第一原理):有,從有的方面看,不能是無。
    • 因果原理:一切事件的發生皆有原因
    • 齊一原理:宇宙結構為:每一個事件皆可被是為某一普遍法則(自然法則)的實例

第五章 理性論

  • 理性:根據原理,並依照其他邏輯法則而加以推演,以獲得新的知識
  • 演繹推理:根據原理或普遍判斷彼此的蘊含關係而推得特殊的結論
  • 歸納推理:依據因果原理和齊一原理,由特殊事件而獲得普遍結論的推理活動。

第六章 真理論

  • 真理
    • 本體的:萬物的真實無妄及其可知性
    • 邏輯的:建基於事實的判斷
  • 明顯性:真理的最後判準
    • 有一客觀事物或事實清晰地呈現在我面前
    • 我清晰地看出萊納是一個客觀事物或事實
  • 確定性:使我們對於明顯的真理予以堅定不疑的承認
  • 不明顯的判斷
    • 持有意見:支持判斷的理由比較強
    • 懷疑:正反兩方理由不相上下

第七章 權威論

  • 權威:
    • 我們之相信他人報告的理由或動機
    • 他人提供的報告稱為「證言」,提供報告的人稱為「證人」
  • 權威的分類
    • 社會性的:管轄權或倫理權
    • 邏輯性的:證人的權威
  • 信:指一個人因為某種適當的能力,能夠使別人給以理智的同意
    • 證人的知識
    • 證人的誠實

第八章 科學論

  • 科學知識的特徵
    • 它以某些理由或原因為基礎
    • 有系統,其研究對象具有一定的範圍
    • 具有一定的研究方法
  • 科學的分類
    • 普遍的:稱為哲學
    • 特殊的:以特殊對象為研究的目標。
      • 實在科學:自然科學與人文科學
      • 理想科學:以比較抽象的概念為對象
  • 科學使用的推理
    • 理想科學:演繹法
    • 自然科學:歸納法
    • 人文科學:歸納法,但較難確定

結論:形而上學

  • 哲學:
    • 解答普遍問題、說明特殊科學依據的原理;研究天地間最高或最後原理的學問
    • 分類:物、人、神
  • 形而上學:
    • 一般的:超越屬性、有的本質、可能與現行、自立體與依附體、因與果
    • 特殊的:宇宙論、心理學、自然神學

感想

  • 科學研究,特別是社會科學,任何議題都會與知識論有所關連
  • 知識論有助於強化論文的理論根據與論述方法
  • 在圖資領域研究中,應預設知識論的正確性,並進一步發展出應用理論

在閱讀的時候,會覺得很有邏輯。可惜我記憶力太差,讀完之後就會忘記這之間的邏輯是怎麼推導而來的了 OTL

(more...)

An Interdisciplinary Lexicon 跨學科詞彙

布丁布丁吃布丁

An Interdisciplinary Lexicon 跨學科詞彙

image

Klein, J. T. (1990). Interdisciplinarity: history, theory, and practice. Wayne State University Press.


定義Interdisciplinary的方法

  1. 從舉例來定義,指定它是什麼型態
  2. 從動機來定義,解釋為什麼它會發生
  3. 從互動原則來定義,展示學科之間是如何互動
  4. 從專有名詞階層來定義,用特定詞彙來區別整合的層級

作者以專有名詞階層的區別來說明interdisciplinary:

  1. Multidisciplinary:多學科
  2. Interdisciplinary:跨學科
  3. Transdisciplinary:整合學科

Multidisciplinary / Interdisciplinary的區別

  1. Multidisciplinary:指多個並列的學科
  2. Multidisciplinary與教育、研究
    • Joseph Kockelmans認為西方近代教育實質上都是Multidisciplinary,而該詞彙並非用來敘述研究情境
    • “Multidisciplinary” 的研究通常是專案中 ”自然發生的答案”
  3. 區別multidisciplinarity跟interdisciplinarity的例子:
    • 費城社會歷史計畫 (Philadelphia Social History Project, PSHP)
      • 關於19世紀各國首都的都市化與工業化造成人口差異的合作研究
      • 發展歷經合作(collaborative)、multidisciplinary到interdisciplinarity等不同階段
    • Apollo Project:目的是制定操作性詞彙,類似癌症研究計畫

Interdisciplinary / Transdisciplinary的區別

  1. Interdisciplinary的4種互動方式
    • 借用:例如統計工具等研究方法
    • 解決問題
    • 增加研究議題或方法的穩定性
    • Interdiscipline的新興議題
  2. Transdisciplinary
    • 為了處理更全面性的範圍與願景
    • Miller解釋:是一種概念性的框架,跨越了多個狹窄的學科範圍,包含了多個不同學科處理的議題
  3. Ryszard Wasniowski以Wroclaw大學的未來研究中心(Futures Research Centre, FRC)為例:
    • Multidisciplinarity:多學科獨立運作
      image
    • Pluridisciplinarity:參考不同學科的文獻
      image
    • Crossdisciplinarity:單方向的獨立運作發展到極致
      image
    • Interdisciplinary:利用不同學科的方法來解決問題。分成1.實務層級; 2.科學層級
      image
    • Transdisciplinarity:多層結構組織,包含廣泛目標。分成1. 政策決定層級;2. 規劃層級;3. 實務層級;4. 科學層級
      image
    • 未來研究做為Transdisciplinary研究的架構圖:
      image
      1. 超級系統:transdisciplinary方案
      2. 系統:interdisciplinary方案
      3. 應用問題:學科導向
      4. 基本問題:學科導向
  4. Sverre Sjolander的發展interdisciplinary計畫10個階段
    1. 參與者做各自的事情
    2. 參與者注意到各自的不足
    3. 參與者開始退到抽象層次,尚未到實務階段
    4. 定義問題,規範技術詞彙
    5. 參與者集中討論
    6. 參與者建立起共同的隱語
    7. 參與者發現它們浪費時間而沒有實際產出
    8. 參與者反省造成如此現象的原因
    9. 參與者知道目標
    10. 參與者真正開始產出

感想

  1. 如果要策劃跨學科的大計劃,那麼就了解跨學科的運作方式是很重要的
  2. 藉由了解組織間學科互動程度高低,也有助於理解學科分類架構的由來

之後課堂中也會提到很多跨學科的概念,現在在回頭看這篇,會讓我覺得定義跨學科層級的目的常常會隨著研究目的而有所改變吧。

倒是最後的跨學科計畫頗有合作式學習的味道,真微妙。

(more...)

Community Practice: an alternative vision of the network society 社群實踐

布丁布丁吃布丁

Community Practice: an alternative vision of the network society 社群實踐

image

Day, P., & Schuler, D. (2004). Community practice in the network society: local action/global interaction. Routledge.


名詞對應

  • 社會 society
  • 社群 community
  • 網路 network
  • 資訊通訊科技 information communication technology¸ICTs

前言

  1. 社會(society):從階層式與基於分類的工業社會權威架構轉變成為網路社會架構。
    我們需要注意:
    • 主要的網路社會理論
    • 切合現代社會的實踐社群架構
    • 社會經濟情境(socio-economic context)
  2. 資訊通訊科技(information communication technology¸ICTs):做為網路社會的基礎,加速社會發展
  3. Castell的流動空間(space of flows)理論強調科技工具的重要性
  4. Dijk(1999):網路社會之所以是一種社會,是因為社會與媒體網路形成了它的原本組織模式與最重要的架構

資訊社會的起源

理論觀點
  1. Duff等人(1996):1960年代的日本是現代資訊社會哲學的發源地
  2. Daniel Bell (1973):三個相關的社會現象
  3. 電腦的威力
  4. 理論知識的集中成為新科技、經濟成長、社會階層組織的經緯
  5. 新社會經濟規律的新興議題
  6. Bell的後工業主義(post-industrialism)與資訊社會理論,成為現在網路社群理論的根源
政策觀點
  1. Bell的理論影響了1970/80年代的西方決策者的思想
    • NII的Vice-President Al Gore:用資訊高速公路比喻廣泛的社會經濟通訊潛力
    • 歐洲的第一框架計畫(First Framework Programme,1984-1987):發展歐洲的資訊技術
  2. 美國:
    • 國家資訊建設(National informaiotn infrastructure, NII)
    • 資訊建設工作小組 (Information infrastructure Task Force¸IITF):利用ICT增進美國經濟競爭力、降低管理成本、促進政府運作效率與責任
  3. 歐洲:
    • 資訊社會政策(Information Society)
    • Delors發展白皮書(1993):建立跨歐洲的高品質網路

ICTs如何串連資訊社會

  1. 網路社會中的「技術-經濟決定論」(techno-economic determinism)
  2. Freeman (1994)藉由指出 選擇主要目標背後的最大化利益 以及 資本主義經濟的新技術採用,概念化了技術決定論以及「專業知識」

了解社群

  1. Butcher (1993):社群公共政策議題可以從三個層面來探討
    1. 敘述性的社群 (descriptive community)
      • 指涉一種具有歸屬感、共同感團體或人際網路
      • 分成地理社群與利益社群
    2. 價值的社群 (community as value)
      • 除了地理或利益社群概念之外,還包含特定價值:團結、參與、凝聚力
      • 奠基於社群主義
    3. 活動的社群 (active community)
      • 社群也是社會和政治活動的基礎
      • 公共政策制定係以促進社群的力量與能力為目標

社群政策的框架

  1. 了解並符合社群需求
  2. 在活動的社群團體與組織中運作
  3. 基於一到多種社群價值
  4. 排好社群需求的優先順序
  5. 穩定與讚揚文化的差異
  6. 反映社群自治和社群活動責任目標的承諾

社群實踐 (community practice)

  1. 社群實踐是一種鼓勵促進社群規劃、建立與維護社群健全運作的方法
  2. 社群實踐的要素:
    • 維持社群工作者持續參與
    • 越來越多專業人員在工作中利用社群的力量
    • 社群團體自己本身的自我管理
    • 藉由嘗試改善管理服務,鼓勵社群使用與參與服務的規劃與提供
  3. 社群實踐的方法:
    • 社群服務
    • 社群發展
    • 社群行動

本書架構

  1. 網路社會 – 議題與危機
  2. 社群實踐的現況
  3. 新興社群技術研究議題

感想

  1. 了解資訊社會與網路社群的由來與定義,有助於探討政策規劃的研究
  2. ICTs促進網路社會發展的理論可作為資訊技術應用研究的基礎

現在回頭看一下當初自己寫的內容,我還是覺得,自己當時根本就搞不懂自己這到底是什麼東西吧……

(more...)

論文閱讀筆記心得

布丁布丁吃布丁

論文閱讀筆記心得

image

這是在剛開學時跟大家分享的一份投影片,內容關於paper study時的note撰寫方法。

剛上研究所時,大家對於paper study這件事情都會相當恐慌。大學時別說是英文論文,大概就連中文論文都不太看。可是一上研究所,就得要強迫自己閱讀英文的論文。這是一條必經之路,而事實上這也的確能夠增長英文閱讀能力,提昇吸收資訊的速度。

一般來說,paper study並不是看小說、雜誌,看看笑笑就過去,而是要將看到的東西經過整理、消化,成為自己的一部分。特別是在未來撰寫論文的時候,就是要仰賴大量的閱讀與有技巧的整理。

以下是這份投影片的內容:(SkyDrive備份)

這份投影片裡面介紹到兩樣工具:

至於note到底要怎麼寫會比較好呢?老實講,讀到現在我也沒個準則。大致上只要能夠跟別人說明、能跟未來的自己說明,那應該就足夠。

接下來我會將最近閱讀的note一篇一篇放上來,希望促進閱讀知識的分享與交換。有些寫得很差或寫錯的地方,歡迎大家多多批評指教。

(more...)

書籍掃圖裁切工具:PSP Comic Converter

布丁布丁吃布丁

書籍掃圖裁切工具:PSP Comic Converter

image

最近在整理書籍掃描檔案,並為書籍製作文字辨識OCR。如果是雙頁書籍,那麼OCR的結果通常不太好。這時候我需要一個可以將雙頁書籍切割成左右兩頁、各別成為獨立檔案的工具,找了半天,最後找到的是這個PSP Comic Converter。


下載與開啟

該軟體不用安裝,下載解壓縮後就是一個PSP Comic Converter.exe,直接開啟之後畫面如下:

image

使用步驟

操作上很簡單,右邊按鈕一個一個按就是了。我直接敘述步驟:

  1. 選擇來源目錄:指定你要準備要分割的圖片目錄。
  2. 選擇目標目錄:指定PSP Comic Converter分割完成之後儲存分割結果的目錄。
  3. 讀出文件列表:確認來源目錄的檔案。
  4. 參數設置:比較值得一提的是這個選項,下面再細講。
  5. 開始轉換:執行切割動作。
參數設置

image

點開「參數設置」的功能,上圖就是他的對話視窗。

儘管裡面有許多可以調整的參數,不過最重要的是「頁面順序」。如果是橫書,通常順序是「1|2」;而如果是直書,順序則是「2|1」,這會影響到切割之後的檔案順序。當你在做大量圖片處理時,這個功能格外地重要,可以省下許多力氣手動調整檔案順序。

切割結果

1026 宇凡c 005

上圖是雙頁書籍的圖片檔案。

00000001 00000001d

上面兩張圖則是切割的結果。


小結

一開始我先找了一下手邊常用的FastStone Image Viewer等軟體,意外的是都沒有批次切割的功能。最後找到的PSP Comic Converter,光看名字還真是想不到他也可以這樣用。只能說為了看漫畫,社群的力量也是很強大的。

(more...)

Proxmox VE用備份(vzdump)與還原(restore)複製虛擬機器 (clone Virtual Machine)

布丁布丁吃布丁

Proxmox VE用備份(vzdump)與還原(restore)複製虛擬機器 (clone Virtual Machine)

image

Proxmox VE是一套開放原始碼的虛擬機器環境,他同時使用了OpenVZ容器虛擬化與KVM全虛擬化兩種技術,可以根據需求選用不同的方式來建立虛擬機器。

本篇要介紹虛擬機器的複製方式,這包括了備份(匯出)與還原(匯入)的指令。依照使用的技術不同,OpenVZ與KVM都必須使用各自的指令。


為什麼需要複製虛擬機器?

有時候,我們建立好一個提供了完整服務的虛擬機器。現在有另一群人想要把這個虛擬機器的內容進行修改,可是又想要保留原有的虛擬機器。這時候你就需要複製功能。

或著是說,你想要建立一個Proxmox VE沒有提供的虛擬應用樣板,作為其他應用的基礎。例如具備XAMPP環境的作業系統。這樣就可以省下每次都要從空的作業系統中安裝XAMPP的手續,讓後面的人更容易從XAMPP架設網站。

在我上一篇介紹Proxmox VE的虛擬應用樣板中有提到,OpenVZ必須要從特定的樣板中建立虛擬機器,而要建立一個虛擬應用樣板也不是這麼容易的事情。相較之下,用複製的方式從原有的虛擬機器建立另一個虛擬機器,這方法就容易多了。

在了解了背景需求之後,以下再來介紹複製的方法。

複製虛擬機器的步驟

在Proxmox VE複製虛擬機器的步驟,我個人看來是有三步:1. 準備來源虛擬機器、2. 備份(匯出)、3. 還原(匯入)、4. 設定新建立的虛擬機器。以下介紹各步驟的作法。

1. 準備來源虛擬機器

image

在進行複製之前,你必須先準備一台虛擬機器。

你需要注意的設定有兩點:

  1. VMID:這台虛擬機器的ID。
  2. 虛擬化技術:OpenVZ容器虛擬化技術或是KVM全虛擬化技術。

要注意的是,OpenVZ跟KVM的操作方式都有一些不同,請依據你使用的技術選擇正確的指令。

image

確定了你要備份的虛擬機器之後,請先將該虛擬機器關機,以便進行接下來的備份動作。

2. 備份(匯出)虛擬機器

儘管Proxmox VE有提供排程備份的功能,但在這邊我們選擇使用指令列的方式來進行備份。

2011-11-19_180900 ssh - mask

在Proxmox VE安裝完成之後,我們就可以用SSH連進去。我通常使用的SSH連線軟體是PieTTY,預設連接埠22,登入帳號是root與安裝時使用的密碼。

現在要開始執行備份的指令。假設你的虛擬機器的VMID是165,暫存目錄擺在「/tmp」底下,不論是OpenVZ還是KVM,備份的執行指令如下:

proxmox:~# vzdump --dumpdir /tmp --compress 165

備份需要花點時間等待,請耐心等候吧。

image

備份完成之後,就會顯示上述訊息。備份VM 165總共花了7分鐘,備份檔案大小為1.54GB,備份檔案的路徑為「/tmp/vzdump-qemu-165-2011_11_19-18_36_22.tgz」。請記得備份檔的路徑,待會還原時會再使用。

因為我這個VM 165是Windows XP系統,所以備份起來檔案頗大。如果是OpenVZ的話,基本的作業系統通常不會超過300MB。

2011-11-19_194353 download backup - mask

如果有需要的話,你也可以在/tmp目錄中下載該備份檔喔。

3. 還原(匯入)虛擬機器

接下來的步驟中,就要依照該虛擬機器使用的技術,選擇相對應的還原指令了。

以KVM為例,剛剛的備份檔的路徑為「/tmp/vzdump-qemu-165-2011_11_19-18_36_22.tgz」,如果你想要以此建立一臺新的虛擬機器,VMID編號為170(編號必須為100~999之間,而且此編號不能先被佔用喔),那麼請使用qmrestore指令:

proxmox:~# qmrestore /tmp/vzdump-qemu-165-2011_11_19-18_36_22.tgz 170

如果你剛剛備份的是OpenVZ檔案,則檔案的名稱會有所不同(雖然依然是用vzdump指令)。假如現在有個OpenVZ備份檔的路徑為「/tmp/vzdump-openvz-350-2011_10_28-02_25_51.tgz」,你想要以此建立一臺新的虛擬機器,VMID編號為170,那麼請使用vzrestore指令:

proxmox:~# vzrestore /tmp/vzdump-openvz-350-2011_10_28-02_25_51.tgz 170

2011-11-19_200227 qmrestore - mask

還原指令執行時,會出現上圖的訊息,這是以qmrestore還原KVM備份檔的結果。

2011-11-19_200613 list

還原成功之後,你就可以在Proxmox VE網頁管理介面看到該虛擬機器了。

4. 設定新建立的虛擬機器

image

設定完成之後,你最好先調整一下其他參數再來使用,特別是網路IP的設定、Hostname主機名稱等等。以免直接開啟新建立的虛擬機器時,造成與來源的虛擬機器相衝的問題喔。

image

設定好之後就開啟來使用吧,這又是一個跟來源一樣的Windows XP虛擬機器囉。


結語

用複製的方式建立虛擬機器有幾個缺點,像是管理者密碼不能在建立時供人自訂(但還是可以建立完之後再修改,如上述的第四步驟)、虛擬機器的備註(Notes)與網路等各種設定都會被複製過去,讓人覺得這並不是一個「全新」的機器。

不過換個角度來看,如果只是在組織內部複製虛擬機器而不需要供外界使用的話,保持相同的帳號與密碼,說不定這樣還比較方便管理呢。

有時間的話,我也想建立真正的「虛擬應用樣板」。但那就改天再說吧。

(more...)

Proxmox VE的虛擬應用樣板 (Virtual Appliance Templates)

布丁布丁吃布丁

Proxmox VE的虛擬應用樣板 (Virtual Appliance Templates)

image

Proxmox VE的OpenVZ虛擬應用樣板提供了各種可以馬上執行的應用,就像是VMware的虛擬應用程式(Virtual Appliance)一樣,但使用的技術並不相同。這篇文章簡介Proxmox VE 1.8版安裝虛擬應用樣板所使用的OpenVZ技術,然後簡單介紹虛擬應用樣板的用途,最後則是以Joomla跟Moodle為例介紹安裝與使用的方式。


Proxmox VE、OpenVZ與應用樣板

Proxmox VE是一套開放原始碼的虛擬機器運作環境。他的特色在於結合了OpenVZ容器虛擬化技術與KVM全虛擬化技術,可以依照運作環境需求來選擇使用的技術。

OpenVZ容器虛擬化技術是建立一個「容器」(container),將Linux的程序與檔案全部集中在該容器中,成為獨立的一個Linux運作環境,進而模擬出一台Linux的虛擬電腦。容器虛擬化的運作方式彷彿是在Linux中執行一個Linux使用的程序,因此虛擬化的效能損耗相當的低。根據維基百科對OpenVZ的介紹,在一台768MB記憶的硬體中可以同時執行120個提供Apache服務的網站。

然而OpenVZ的容器虛擬化技術也限制於只能使用Linux作業系統。而且安裝時並不是使用一般的Linux安裝光碟,是需要使用經過特殊處理的樣板。在OpenVZ網站中稱之的樣板(template),只是建立了單純的CentOS、Fedora、Debian、SuSE、Ubuntu等Linux作業系統。而Proxmox把這些樣板加上了各種預先安裝好的服務(像是Joomla網站),而成為了虛擬應用樣板(Virtual Appliance Template)。

這些虛擬樣板的資料最後會被壓縮誠一個tar.gz的壓縮檔,使用者只要透過特定指令與步驟,就能快速在OpenVZ的環境(包括Proxmox VE)中從樣板建立一個馬上可以使用的虛擬機器。而Proxmox VE把這套流程做得更簡單、更容易上手,下面文章中將會說明詳細的安裝步驟。

應用樣板來源

目前就我知道的應用樣板來源共有三處:

  • Proxmox VE預先提供的應用樣板:應用樣板數量較少,但都是常用的服務。
  • Proxmox VE Wiki提供的完整應用樣板:完整且詳細的應用樣板,羅列了各式各樣的好用服務。這邊也含括了Promxox VE預先提供的應用樣板。
  • OpenVZ的作業系統樣板:只有純作業系統,但有各種不同版本可供下載。

以下主要介紹的是Proxmox VE Wiki提供的完整應用樣板。

Proxmox VE預先提供的應用樣板

image

Proxmox VE wiki的Get Virtual Appliances網頁中提供了許多虛擬應用樣板可供人免費下載使用。除了作業系統之外,具有特殊應用的樣板就有21種(排除僅是版本不同的樣板,以及不考慮KVM形式)。還有其他Proxmox VE推薦的2種。當然,這些應用本身也大多數都是開放原始碼軟體,請大家安心使用。

為了方便大家了解到底有哪些樣板可以使用,以下我把這26個樣板分成五種類別來介紹:

內容管理平台(Content Management System)
  • Joomla!:簡單易用的內容管理平台,現在台灣十分流行使用Joomla架設網站。
  • Wordpress:世界上最知名的部落格平台。
  • Drupal (Acquia Drupal):非常彈性具有的內容管理平台。
  • MediaWiki (v1.16x):最知名的維基軟體。維基百科就是用MediaWiki架設。
  • SimpleGroupWare:具備知識管理功能的內容管理系統。可以處理文件、e-mail、日曆、聯絡、工作、通訊錄等等多種功能。簡單容易使用。
基礎平台
  • BlueOnyx:作為架設網站的基礎,提供網頁GUI介面,可設定FTP等系統服務。(可惜似乎是不能讓Proxmox VE使用)
  • eyeOS:雲端桌面系統。你可以透過桌面電腦或行動裝置連到eyeOS進行文件管理、處理,或把它當作一個網路硬碟使用。
  • Proxmox Mail Gateway:Proxmox公司出品的郵件伺服器。
  • Zimbra:替代MS Exchange的郵件伺服器。
  • DebPBX (FreePBX, PBX in a Flash):VoIP網路電話。
  • CYAN Secure Web:代理伺服器(Proxy)。
企業管理與電腦資產管理
商務平台
其他應用
  • Moodle:數位學習使用的課程管理平台。
  • Care2x:醫院資訊管理應用。

安裝虛擬裝置樣板

在Proxmox VE安裝虛擬裝置樣板的方式有兩種,一種是在Proxmox VE提供的預設列表中直接下載安裝,另一種是手動從其他地方下載樣板,然後上傳到Proxmox VE中。

從Proxmox VE直接安裝樣板:以Joomla為例

Proxmox VE預設提供了一些常用的樣板,讓我們可以輕易地下載、取用。這個步驟真的很簡單,我非常喜歡他這邊的高度整合化功能。接著我以Joomla為例,介紹直接安裝樣板的操作過程。

image

在Proxmox VE安裝完成之後,你可以從左邊導覽列的VM Manager –> Appliance Templates –> Download中找到Proxmox VE提供的預設列表。該列表中將虛擬應用樣板分成四類:已認證的樣板(Certified Appliances)、管理用途的樣板 (admin)、作業系統樣板(system)、網站用途樣板(www)。

image

點入任一個樣板之後,你可以看到樣板的詳細訊息。上圖是點進Joomla樣板的介紹,裡面包括了對Joomla的簡介、詳細資訊連結、版本、分類、維護者、檔案名稱、MD5查核碼。

確定要使用該樣板的話,點下「start download」就可以開始下載該樣板的檔案。

2011-11-19_150328 download template

網頁中你可以看到Proxmox VE下載樣板的進度。 Joomla的樣檔案網址是http://download.proxmox.com/appliances/www/debian-6.0-joomla_1.6-3_i386.tar.gz,檔案大小為174MB。就算是我這邊學術網路的速度,下載也要等上好一陣子。後面的時間3m35s是剩餘的時間。

image

終於下載完啦。

有時候他這個訊息會跑到停住,這可能就是AJAX沒有寫好,讓他讀取中斷了。不過實際上Proxmox VE還是有在下載的,移到其他網頁再切回Download,就可以看到訊息繼續跑了。

image

下載完成之後,你就可以在Local頁面看到剛剛下載的樣板。稍後在建立新的虛擬機器時,就可以用該樣板來快速建立Joomla網站了。

手動安裝樣板:以Moodle為例

如果你要的虛擬裝置樣板並不在Proxmox VE的預設清單中,那你也可以自行下載樣板檔案,再上傳到Proxmox VE中。以下以Moodle為例說明操作步驟。

image

在上面介紹的虛擬應用樣板網頁中,你都可以找到下載tar.gz樣板檔案的連結。以Moodle來說就是http://www.sacollege.net/files/appliances/debian-5.0-moodle_1.9.9p-1_i386.tar.gz (190MB),請先將該檔案下載到你的電腦吧。雖然tar.gz是打包壓縮檔,不過請不要解壓縮這檔案喔,tar.gz的打包壓縮檔就是虛擬應用樣板本身了。

image

接著再回到Proxmox VE中,進入VM Manager –> Appliance Templates –> Local頁面中,在Upload File欄位裡選擇剛剛下載的樣板檔案,然後按下「upload」上傳。

2011-11-19_153634 please wait

等待樣板檔案上傳。Google Chrome會在左下角顯示上傳的進度。

image

上傳完成囉。

image

在Local頁面的OpenVZ Templates列表中就會看到剛剛上傳的Moodle樣板檔案。接下來新增虛擬機器時,就可以用該樣板快速建立Moodle網站囉。

以SSH上傳樣板到Proxmox VE

有時候網路實在是太不穩,你怎樣都無法用網頁介面上傳資料到Proxmox VE。這時候你可以考慮透過SSH的SFTP上傳樣板檔案。

image

Proxmox VE安裝完成之後,除了網頁管理介面之外,它也提供了SSH的服務。預設連接埠22,以root跟安裝時的密碼登入。我通常會用FileZilla以SFTP連到Proxmox VE管理來大型檔案。

Proxmox VE擺設樣板的路徑為「/var/lib/vz/template/cache/」,你也可以在該路徑底下看到Proxmox VE已經下載的樣板喔。

使用樣板建立虛擬機器

image

當你已經將樣板儲存到Proxmox VE之後,在VM Manager –> Virtual Machines –> Create頁面中,你就可以從Template選擇要使用的樣板。上圖可以看到我剛剛上傳的Joomla跟Moodle都在列表中。然後其他參數設定設定,你就可以建立一台具備Joomla或Moodle網站功能的虛擬機器囉。

2011-11-19_155257 joomla - mask

至於要怎麼使用樣板呢?大部分網站服務為主的樣板,架設完成之後,只要以該虛擬機器的IP為網址,直接用瀏覽器開啟,你就可以看到虛擬應用樣板的服務。但如果不是網站服務的樣板,那你就要從詳細介紹中看看如何使用的說明囉。


結語:虛擬應用是新時代趨勢

對於Proxmox VE在使用OpenVZ必須要使用樣板建立虛擬機器這點,其實很多人不太能習慣這個步驟

大多數安裝電腦的人,幾乎都是先接手一台沒有作業系統的空機器,從光碟開始一步一步慢慢地安裝,然後再安裝網站伺服器、資料庫,配置網站的程式碼,花了許多時間才能夠架設出一台可以用的伺服器。

即使是會使用VirtualBox或VMware等全虛擬化技術的人,也都會習慣先建立一個空的虛擬機器,配置好光碟機、網路卡等虛擬硬體設備,再掛載ISO光碟映像檔。然後就跟一般安裝電腦一樣,從光碟一步一步安裝起。

然而科技演進到現代,不論是Proxmox VE的虛擬應用樣板,或是VMware的虛擬應用,他們都是想要讓架設虛擬機器就像是在電腦上安裝應用程式一樣簡單。仔細看看上述我的介紹,整個架設Joomla的動作也不過是 1. 下載樣板 2. 安裝樣板 3. 建立虛擬機器 4. 開始使用,就這樣簡單。而且不管是Joomla還是Moodle,他們都可以用同樣的方式來架設,你不需要因為使用不同的系統而學習另一種架設手續。

時代的趨勢就是讓人們更容易使用科技。即使是伺服器服務這麼複雜的東西,Proxmox VE也要讓它簡單能夠使用。這也是我喜愛Proxmox VE的地方。

如何建立自己特製的樣板

雖然要在Proxmox VE使用虛擬應用樣板很簡單,但要從頭建立自訂功能的樣板,可就沒這麼容易了。

OpenVZ介紹了如何從實體電腦(physical)轉換到容器(container,也就是此篇文章講的樣板template)。轉換手續非常地多,似乎並不容易使用。

Proxmox VE介紹了以Debian作業系統建立虛擬應用樣板的Debian Appliance Builder,我還沒嘗試過,不過看起來並不複雜。

還有一種方式,就是直接「複製」已經建立好的OpenVZ虛擬機器。這只要使用vzdump匯出與vzrestore還原即可,操作方式可以看OpenVZ的說明。改天有空的時候我再來介紹如何在Proxmox VE中進行這樣的操作。

(more...)