資訊檢索中「相關」概念之發展
黃慕萱(1997)。資訊檢索中「相關」概念之發展。圖書館學刊,(12),39-62。
1. 相關研究的歷史
- 發起:1950年代開始
- 第一次高峰:1970年代,大型的實證型研究和理論型研究不斷投入,以求了解相關的本質和建立相關的理論
- 衰退:1980年代,由於缺乏突破性的發展,許多學者都停止對相關的探索工作
- 第二次高峰:1990年代,理論型研究和實證型研究又開始大量出現。
1-1. 先驅研究
- Mooers、Perry、Taube定義相關為檢索詞彙和文獻索引詞彙間之吻合關係
- 確定系統觀點(system view)之相關定義,併嘗試從不相關的角度來了解相關。
1-2. 1958年之科學資訊國際會議
- 討論兩大爭議:相關的哲學及最佳定義;相關的測量方式。但沒能解決爭議。
- Vickery將相關分成「主題相關」(relevance to a subject)和「使用者相關」(user relevance)
- Rees和Schultz指出科學資訊國際會議之一致性結論為:
- 相關不應局限於系統內部之運作
- 相關的內涵應超越文件內容的本質和文章的關聯性
- 相關並不是二元化(是非題)之單純決策
- 相關必須擴及使用者相關的層次,也就是說,由系統觀點的相關定義進至目的地觀點(destination view)之相關定義
1-3. 相關之理論性探討
- Maron和Kuhns的相關概念量化研究:利用機率概念發展出「相關數目」(relevance number)作為量化相關之測量值。相關數目是基於讀者、需求、需求之主題、及文件提供的答案等四項因素共同決定。
- Goffman:從型式數學推翻測量值之假說,但造成此原因可能是定義的未考量文章和文章之間的關係。
- Goffman和Newill:從傳播學理論解釋相關,並認為應將相關以問題與文章、及文章與文章間之關係加以量化。
1-4. 相關之實證研究
- Cuadra和Katter:
- 將相關歸納為二類:
- 主題相關:表示讀者之興趣領域和詞彙與文章之間的關係
- 非主題相關:表示系統輸出和讀者資訊需求間的關係
- 找到38種影響相關判斷的變數,歸納為下列五類
- 文章類型,包含其主題及難易程度
- 資訊需求之陳述
- 判斷者之經驗、背景及態度
- 判斷條件,例如時間壓力、輸出順序、及文章筆數等
- 表達方式的選擇及相關判斷的尺度
- 發展出相關評估模式 (Model of Relevance Accessment)
- 焦點變數:指讀者判斷相關之架構或標準
- 界限變數:對實驗對象施以不同的教導會導致不同的相關判斷結果
- 情境變數:包含不確定性、時間壓力、回饋及其他會影響相關判斷之社會動機
- 刺激資料變數(stimulus material variables):包括寫作風格及文章之專指程度
- 個人差異變數:判斷者其知識及技巧上的差異
- 判斷尺度上的差異:通常尺度過於粗略,不足以顯示相關判斷之敏感性
- Rees和Schultz
- 將相關定義為檢索所得結果與讀者資訊需求之間的關係,而有用性(usefulness)則完全受讀者個人特質的影響
- 發現個人差異對相關判斷影響甚鉅,建議從認知型態和人格特質的導向來研究相關
- 五類相關變數:文件及文件表徵、檢索問題、判斷情境、判斷尺度以及判斷者。其中影響最大的變數是判斷者。
- Saracevic:相關概念之三大假設
- 只有資訊需求者有資格作相關判斷,因為相關是極為主觀的判斷
- 對同一位判斷者,其相關判斷的結果會隨著時間變化,所以個人認知的動態變化在相關判斷中扮演相當重要的角色。
- 不同的判斷情境會導致不同的相關判斷結果,如資訊需求者所處的環境及資訊預期的使用目的等。
2. 相關的定義與發展
2-1. 主題相關
- 檢索詞彙和描述文章詞彙間的一種吻合關係,是一種客觀相關。
- Cuafra & Katter (1967): 「相關是資訊條件敘述(即輸入系統之檢索問題)和文章內容間之一致性,亦即文章所涵蓋的內容對資訊條件敘述的適合程度。」
2-2. 邏輯相關
- 限制型定義
- 檢索問題必須為是否型問題
- 儲存資料之敘述方式必須為正式語言中之句子
- 資訊系統必須具有推理功能
- 最小前提組(minimal premise set)
- William Coopter:「一句子和資訊需求邏輯相關的必要條件是其所屬文件(以儲存的句子表達之)必須包含構成資訊需求之最小前提組(minimal premise set)」
- 最小前提組:能推論出所需結果之最小前提集合。在此集合中,如果刪除任一前提,就無法以邏輯推理得到所需結論。
2-3. 情境相關
- 由Patrick Wilson提出,以邏輯相關為基礎,加上邏輯歸納所推得之證據相關,再考慮讀者個人之知識狀態極其關心的重點延伸而成。
- 變動性:情境相關考慮到個人知識狀態,而個人知識狀態不斷地變化
- 顯著資訊(significant information):能夠改變個人知識狀態或認知狀態的資訊
2-4. 心理相關
- Sperber & Wilson: 個人的認知環境或知識狀態係指在某一特定時間內所能明白的事實和假設,在言談進行的過程中,個人的認知狀態(或知識狀態)會隨著譚會那容不斷地改變。……因此對個別交談者而言,所謂相關就是指產生最大文字關連的情境或是需要最少資訊處理的情境。
- Harter:相關資訊就是能改變人類認知狀態(或知識狀態)的資訊,換句話說,就是能產生文字關聯效果(contextual effect)之資訊
影響相關判斷之因素及相關判斷之依據
- Saracevic五大影響因素組
- 文件:主題、內容差異、難易程度、學科軟硬程度、資訊量…
- 判斷情境:時間壓力、文件排列順序、資料筆數、文件寬度…
- 文獻展現形式:尺度類型、類慕序號、要未之反應類型…
- 檢索問題陳述:主題、內容重點、難易程度、專指性或資訊量…
- 判斷者:知識/經驗、致力、認知狀態、偏見、判斷經驗、判斷狀態…
- Park三層面範疇
- 內在範疇(internal context):指讀者依過去經驗或其預期心理選擇相關資料
- 外在範疇(external context):對檢索品質之認知、檢索目的、資訊取得程度之認知、資訊需求之優先程度等等
- 問題範疇(problem context):使用書目資料的動機
- Barry的七大類目因素
- 文件內容:文章深度及探討重點、資訊之正確性、可應用程度…
- 讀者過去經驗和背景有關之因素:作者經驗和背景、理解能力…
- 讀者之信仰及喜好:讀者主觀認知之正確性及其個人嗜好…
- 資訊環境中其他資訊資源:論點之一致性、其他學者對研究結果之認同…
- 文件的來源品質:期刊品質與信譽
- 文件的實體部分:可取得性及花費
- 讀者之情境:時間限制、讀者與文章作者之間的關係
感想
- 黃慕萱老師的「相關」介紹在國內相當知名,圖資學生必讀。
不過讀了幾篇相關的回顧文章之後,會發現大家描述相關歷史與發展的方式都不太一樣。究竟誰講得比較好、誰講的比較全面,我想應該是沒有一定的定論。只要這篇回顧能幫助大家研究、讀書更為順利,應該就是一篇好文章吧。