:::

數位人文檔案應用:地理資訊檢索系統 / Linking archival data to location: a case study at the UK National Archives

image

這是國際檔案學的一篇論文閱讀課堂報告,這篇文章主要介紹英國國家檔案館 (The National Archives, TNA)為檢索檔案的地理資訊而設計的各種資訊檢索系統。在文章發表的2011年時「數位人文」(Digital Humanities)一詞尚未成形,但應用地理資訊與融入複雜的IR技術的作法儼然已經是走在數位人文的前端。

有興趣的同學可以直接上英國國家檔案館實驗室來實際玩玩看喔:http://labs.nationalarchives.gov.uk/wordpress/


書目 / Bibliography

Clough, P., Tang, J., Hall, M. M., & Warner, A. (2011). Linking archival data to location: a case study at the UK National Archives. Aslib Proceedings, 63(2/3), 127-147. doi:10.1108/00012531111135628

摘要 / Abstract

英國國家檔案館(The National Archives, TNA) http://www.nationalarchives.gov.uk/

  • 目的:英國國家檔案館(The National Archives, TNA)是英國政府機關的檔案館。TNA保存了超過1000年以上的實體與數位檔案。從TNA的線上目錄搜尋的結果來看,讀者時常需要查詢檔案的實體地理位置。這篇文章的目的在描述TNA如何抽取檔案中的地理資訊,以提昇檔案的取用效率。
  • 研究方法:為了能夠快速地從現有檔案資料中取出地理資訊,本研究採用現有的自然語言處理技術(Natural Language Processing, NLP)以及地理資訊檢索系統(Geographical Informaiton Retrieval, GIR)來應用在這些歷史檔案上。
  • 研究發現:使用電子資訊為檔案添增資訊可以讓TNA能夠進行許多個案研究,以揭示地理資訊如何讓大量檔案更容易取用。現在GIR領域與相關技術所使用的方法,例如OpenLayers,可以輕易地轉移技術到其他機構中。
  • 實務影響:這篇文章講到的方法與技術可以用在其他檔案館上,讓其他檔案館透過類似的方式提昇歷史檔案的取用效率。同樣的,檔案分享方法也可以用來整合其他檔案館的知識。
  • 研究價值:地理資訊是TNA檔案資料中常見的資訊。許多檔案都包含著地理資訊的參考(例如遺囑(wills)、法律、法庭個案),大約55位

PDF註解下載 / PDF Annotation File


筆記 / Notes

3.1 The role of TNA [P.3]

英國國家檔案館不僅保存著1000年以上的歷史檔案,也針對公部門與民間企業提供檔案保存與找尋的建議與指導。

TNA是由Public Record Office (PRO,公共檔案館,1838年成立)、Historical Manuscripts Commission (歷史手稿委員會,1869年成立)、the Office for Public Sector Information (OPSI, 公部門資訊局)、以及Her Majesty’s Stationery Office (HMSO, 1786年成立)所組成。

3.2 Datasets held by TNA [P.3]

TNA主要保存四種檔案:

1. 原件 Original document

  • 包含紙本與數位格式(來自Electronic Records Online, ERO),再以數位化複製提供線上取用(透過Documents Online)
  • 數位化的文件僅佔檔案的少數量,而且有做OCR文字辨識的更少

2. 目錄 Catalogues:

  • 描述TNA藏品內容,記錄英國檔案典藏品的位置。
  • 目錄主要來自TNA的藏品目錄,其他有National Register of Archives (國家檔案登記局)以及E179 Taxation資料庫

3. 公開資訊 Published information:

  • 特別是來自 London Gazette (倫敦名錄)、政府公報檔案、以及Statute Law Database法律資料庫

4. 其他:

  • 包括 ARCHON Directory的檔案聯絡資訊、Your Archives 檔案個人化服務、wiki讓讀者貢獻檔案的內容
4.1 Sources of geographical knowledge [P.6]

要從檔案中抽取地理知識的話,最常用的就是「地名辭典」(gazetter)

地名辭典通常包含:最少有地名、地理特徵與地理位置

地名辭典的來源包括:

  • 官方地名辭典
    Gazetteers of “official” toponyms (e.g. the Ordnance Survey 1:50,000 Scale Gazetteer).
  • 已出版的的地圖集
    Indexes accompanying published atlases (e.g. Multimap.com).
  • GIS資料集
    Place identifier tables accompanying GIS datasets.
  • 地理權威檔
    Place authority files (e.g. Vision of Britain) and rules (e.g. NCA Rules for the Construction of Personal, Place and Corporate Names)
  • 以往出版的地名辭典與百科全書 (e.g. Gazetteer of Great British Place Names).
  • 線上資源 (e.g. Wikipedia.com).

本計劃為了找尋英國地理資訊,主要使用了以下資源:

除了上述資料之外,還有其他資源可供使用:

4.2 Identifying and resolving geo-references [P.8]

準備好參考資源之後,接下來要從檔案中找出需要結合地理位置的地名

這個抽取地名動作叫做Named Entity Recognition and Classification (NERC),作法是:

  1. 以單字組成預先定義的目錄(包含「非地名」)
  2. 該目錄通常包含地理位置、人名與組織名

NER系統通常包含三大元件:

  1. 斷詞器(tokeniser):將一大段文字拆成句子、將句子拆成個別文字
  2. 地名辭典:包含地名、人名、組織名等等
  3. 配對器 (Named Entity (NE) grammar):考慮文字特徵來附加其他資訊

geo-coding 地名辨識:辨識地名時需要進行消歧(disambiguating),以下是兩種常見的地理混義現象(ambiguities in geo-references)

混義現象 ambiguity 地理位置 location 地理名稱 place name
Referent ambiguity 不同 相同
Reference ambiguity 相同 多個不同名字
5.1 Challenges [P.9]

歷史地理與時間編碼 5.1.1 Integrating space and time [P.9]:

  • 地名會隨著時間變動:地名建立、地名與拼法改變
  • 但是地理辭典僅保存現在的官方地名
  • 因此TNA地理資料儲存是以下圖的格式進行編碼:

image

舉例:舊地名(舊時間)-現在地名(現在時間)-其他資訊

 

分辨歷史地名 5.1.2 Historical places [P.10]:

  • 在分辨歷史地名上,TNA採用多次重複編碼的方式整理
  • 1. 先找到以現在地名為名的檔案
  • 2. 基於這些檔案,找尋其他可能的歷史地名拼法,並將找到的其他地名保存在TNA地名辭典
  • 重複以上步驟,直到找不到其他歷史地名拼法為止

異質資料來源處理 5.1.3 Heterogeneous data-sources [P.11]:

  • TNA保存的檔案資料形式差異很大
  • 需要透過「包裝器」(wrapper),將檔案以結構化形式編碼,並傳給NER與地理元件

處理混義問題 5.1.4 Ambiguity [P.11]:

  • 1. 候選地名:當檔案中的地理資訊與地名進行配對時,首先要利用地名辭典,找尋該地名的可能其他地名
  • 2. 地名消歧(disambiguation):從這些候選地名中找尋正確的地名

大量資料呈現 5.1.5 Scalability [P.12]:

  • TNA以兩階段呈現大量地理資訊:
  • 1. 群組點cluster:將地理位置鄰近的資料集中為一點,讀者點入時才顯示完整資訊
  • 2. 視覺化摘要:當分群點過多時,以熱區圖(heatmaps)來找尋資料集中趨勢:
  • image
5.2 Case studies 系統展示 [P.12]

TNA將實驗成果架設了The National Archives Labs網站。以下介紹其中三種將地理資訊結合國家檔案的例子

Case.1 可供瀏覽與檢索的地理資訊系統
5.2.1 Geographical search and browse [P.13]:

使用資料:以Edian Unlock檔案為雛形的地理資訊系統

伺服器技術:

  • 網頁伺服器:Apache Solr
  • 全文檢索引擎:Lucene (布丁註:都是Apache家族成員,很常見,可以參考我寫的「全文搜尋引擎Lucene簡介投影片」)
  • 地理資訊儲存與處理:LocalLucene/LocalSolr,並使用Cartesian Gird演算法為文件製作地理索引
  • 可處理命令:「找尋1. 某文件關鍵字 2. 在10英哩內 3. 從座標[51.5, 20.1] 」

前端地理圖片資訊:

  • 使用基於OpenLayers技術的OpenStreetMap
  • 能夠縮放(zoom in/out)、指定位置(pan)
  • OpenLayers提供自動產生的群組點(clustering)

使用者操作互動:

  • 瀏覽檔案:從地圖選擇要觀看的檔案
  • 搜尋:從關鍵字搜尋檔案內容

image

特殊介面
5.2.2 Bespoke series-specific interface [P.15]:

TNA針對Domesday Book的大量檔案設計其他的顯示方式

  1. 使用者可以直接看Domesday款目的區域,而不必一筆一筆檔案查找
  2. 以熱區圖顯示檔案數量分析結果,並可加上條件過濾器縮小檢索範圍
資料交換
5.3.3 Developing a shared historical gazetteer [P.15]:
  • TNA遵循英國政府推動的公開資訊(open data)技術,以Linked Data的形式提供TNA地理辭典資源
  • Linked Data是描述資訊供機器讀取的格式,是語意網(Semantic Web)的實作方法之一
  • TNA地名辭典以URI作為辨識資源(地名)的依據,各資源包含地名、地理位置、以及與其他資源的關連
  • 下圖是以基於Linked Data的結構,以RDF描述地名款目的範例:

image

 

心得
  • 令人意外的是非常地IR,很符合數位人文學的趨勢
    (↑是的,我認為數位人文學就是IR拓展到人文地理資訊上這樣)
  • 要如何評估成效呢?
    1. 求全率與求準率
    2. 資料檢索速度
    3. 學習輔助的觀點
    4. 最基本的優使性評估