:::

數位人文檔案應用:地理資訊檢索系統 / Linking archival data to location: a case study at the UK National Archives

image

這是國際檔案學的一篇論文閱讀課堂報告,這篇文章主要介紹英國國家檔案館 (The National Archives, TNA)為檢索檔案的地理資訊而設計的各種資訊檢索系統。在文章發表的2011年時「數位人文」(Digital Humanities)一詞尚未成形,但應用地理資訊與融入複雜的IR技術的作法儼然已經是走在數位人文的前端。

有興趣的同學可以直接上英國國家檔案館實驗室來實際玩玩看喔:http://labs.nationalarchives.gov.uk/wordpress/


書目 / Bibliography

Clough, P., Tang, J., Hall, M. M., & Warner, A. (2011). Linking archival data to location: a case study at the UK National Archives. Aslib Proceedings, 63(2/3), 127-147. doi:10.1108/00012531111135628

摘要 / Abstract

英國國家檔案館(The National Archives, TNA) http://www.nationalarchives.gov.uk/

  • 目的:英國國家檔案館(The National Archives, TNA)是英國政府機關的檔案館。TNA保存了超過1000年以上的實體與數位檔案。從TNA的線上目錄搜尋的結果來看,讀者時常需要查詢檔案的實體地理位置。這篇文章的目的在描述TNA如何抽取檔案中的地理資訊,以提昇檔案的取用效率。
  • 研究方法:為了能夠快速地從現有檔案資料中取出地理資訊,本研究採用現有的自然語言處理技術(Natural Language Processing, NLP)以及地理資訊檢索系統(Geographical Informaiton Retrieval, GIR)來應用在這些歷史檔案上。
  • 研究發現:使用電子資訊為檔案添增資訊可以讓TNA能夠進行許多個案研究,以揭示地理資訊如何讓大量檔案更容易取用。現在GIR領域與相關技術所使用的方法,例如OpenLayers,可以輕易地轉移技術到其他機構中。
  • 實務影響:這篇文章講到的方法與技術可以用在其他檔案館上,讓其他檔案館透過類似的方式提昇歷史檔案的取用效率。同樣的,檔案分享方法也可以用來整合其他檔案館的知識。
  • 研究價值:地理資訊是TNA檔案資料中常見的資訊。許多檔案都包含著地理資訊的參考(例如遺囑(wills)、法律、法庭個案),大約55位

PDF註解下載 / PDF Annotation File


筆記 / Notes

3.1 The role of TNA [P.3]

英國國家檔案館不僅保存著1000年以上的歷史檔案,也針對公部門與民間企業提供檔案保存與找尋的建議與指導。

TNA是由Public Record Office (PRO,公共檔案館,1838年成立)、Historical Manuscripts Commission (歷史手稿委員會,1869年成立)、the Office for Public Sector Information (OPSI, 公部門資訊局)、以及Her Majesty’s Stationery Office (HMSO, 1786年成立)所組成。

3.2 Datasets held by TNA [P.3]

TNA主要保存四種檔案:

1. 原件 Original document

  • 包含紙本與數位格式(來自Electronic Records Online, ERO),再以數位化複製提供線上取用(透過Documents Online)
  • 數位化的文件僅佔檔案的少數量,而且有做OCR文字辨識的更少

2. 目錄 Catalogues:

  • 描述TNA藏品內容,記錄英國檔案典藏品的位置。
  • 目錄主要來自TNA的藏品目錄,其他有National Register of Archives (國家檔案登記局)以及E179 Taxation資料庫

3. 公開資訊 Published information:

  • 特別是來自 London Gazette (倫敦名錄)、政府公報檔案、以及Statute Law Database法律資料庫

4. 其他:

  • 包括 ARCHON Directory的檔案聯絡資訊、Your Archives 檔案個人化服務、wiki讓讀者貢獻檔案的內容
4.1 Sources of geographical knowledge [P.6]

要從檔案中抽取地理知識的話,最常用的就是「地名辭典」(gazetter)

地名辭典通常包含:最少有地名、地理特徵與地理位置

地名辭典的來源包括:

  • 官方地名辭典
    Gazetteers of “official” toponyms (e.g. the Ordnance Survey 1:50,000 Scale Gazetteer).
  • 已出版的的地圖集
    Indexes accompanying published atlases (e.g. Multimap.com).
  • GIS資料集
    Place identifier tables accompanying GIS datasets.
  • 地理權威檔
    Place authority files (e.g. Vision of Britain) and rules (e.g. NCA Rules for the Construction of Personal, Place and Corporate Names)
  • 以往出版的地名辭典與百科全書 (e.g. Gazetteer of Great British Place Names).
  • 線上資源 (e.g. Wikipedia.com).

本計劃為了找尋英國地理資訊,主要使用了以下資源:

除了上述資料之外,還有其他資源可供使用:

4.2 Identifying and resolving geo-references [P.8]

準備好參考資源之後,接下來要從檔案中找出需要結合地理位置的地名

這個抽取地名動作叫做Named Entity Recognition and Classification (NERC),作法是:

  1. 以單字組成預先定義的目錄(包含「非地名」)
  2. 該目錄通常包含地理位置、人名與組織名

NER系統通常包含三大元件:

  1. 斷詞器(tokeniser):將一大段文字拆成句子、將句子拆成個別文字
  2. 地名辭典:包含地名、人名、組織名等等
  3. 配對器 (Named Entity (NE) grammar):考慮文字特徵來附加其他資訊

geo-coding 地名辨識:辨識地名時需要進行消歧(disambiguating),以下是兩種常見的地理混義現象(ambiguities in geo-references)

混義現象 ambiguity 地理位置 location 地理名稱 place name
Referent ambiguity 不同 相同
Reference ambiguity 相同 多個不同名字
5.1 Challenges [P.9]

歷史地理與時間編碼 5.1.1 Integrating space and time [P.9]:

  • 地名會隨著時間變動:地名建立、地名與拼法改變
  • 但是地理辭典僅保存現在的官方地名
  • 因此TNA地理資料儲存是以下圖的格式進行編碼:

image

舉例:舊地名(舊時間)-現在地名(現在時間)-其他資訊

 

分辨歷史地名 5.1.2 Historical places [P.10]:

  • 在分辨歷史地名上,TNA採用多次重複編碼的方式整理
  • 1. 先找到以現在地名為名的檔案
  • 2. 基於這些檔案,找尋其他可能的歷史地名拼法,並將找到的其他地名保存在TNA地名辭典
  • 重複以上步驟,直到找不到其他歷史地名拼法為止

異質資料來源處理 5.1.3 Heterogeneous data-sources [P.11]:

  • TNA保存的檔案資料形式差異很大
  • 需要透過「包裝器」(wrapper),將檔案以結構化形式編碼,並傳給NER與地理元件

處理混義問題 5.1.4 Ambiguity [P.11]:

  • 1. 候選地名:當檔案中的地理資訊與地名進行配對時,首先要利用地名辭典,找尋該地名的可能其他地名
  • 2. 地名消歧(disambiguation):從這些候選地名中找尋正確的地名

大量資料呈現 5.1.5 Scalability [P.12]:

  • TNA以兩階段呈現大量地理資訊:
  • 1. 群組點cluster:將地理位置鄰近的資料集中為一點,讀者點入時才顯示完整資訊
  • 2. 視覺化摘要:當分群點過多時,以熱區圖(heatmaps)來找尋資料集中趨勢:
  • image
5.2 Case studies 系統展示 [P.12]

TNA將實驗成果架設了The National Archives Labs網站。以下介紹其中三種將地理資訊結合國家檔案的例子

Case.1 可供瀏覽與檢索的地理資訊系統
5.2.1 Geographical search and browse [P.13]:

使用資料:以Edian Unlock檔案為雛形的地理資訊系統

伺服器技術:

  • 網頁伺服器:Apache Solr
  • 全文檢索引擎:Lucene (布丁註:都是Apache家族成員,很常見,可以參考我寫的「全文搜尋引擎Lucene簡介投影片」)
  • 地理資訊儲存與處理:LocalLucene/LocalSolr,並使用Cartesian Gird演算法為文件製作地理索引
  • 可處理命令:「找尋1. 某文件關鍵字 2. 在10英哩內 3. 從座標[51.5, 20.1] 」

前端地理圖片資訊:

  • 使用基於OpenLayers技術的OpenStreetMap
  • 能夠縮放(zoom in/out)、指定位置(pan)
  • OpenLayers提供自動產生的群組點(clustering)

使用者操作互動:

  • 瀏覽檔案:從地圖選擇要觀看的檔案
  • 搜尋:從關鍵字搜尋檔案內容

image

特殊介面
5.2.2 Bespoke series-specific interface [P.15]:

TNA針對Domesday Book的大量檔案設計其他的顯示方式

  1. 使用者可以直接看Domesday款目的區域,而不必一筆一筆檔案查找
  2. 以熱區圖顯示檔案數量分析結果,並可加上條件過濾器縮小檢索範圍
資料交換
5.3.3 Developing a shared historical gazetteer [P.15]:
  • TNA遵循英國政府推動的公開資訊(open data)技術,以Linked Data的形式提供TNA地理辭典資源
  • Linked Data是描述資訊供機器讀取的格式,是語意網(Semantic Web)的實作方法之一
  • TNA地名辭典以URI作為辨識資源(地名)的依據,各資源包含地名、地理位置、以及與其他資源的關連
  • 下圖是以基於Linked Data的結構,以RDF描述地名款目的範例:

image

 

心得
  • 令人意外的是非常地IR,很符合數位人文學的趨勢
    (↑是的,我認為數位人文學就是IR拓展到人文地理資訊上這樣)
  • 要如何評估成效呢?
    1. 求全率與求準率
    2. 資料檢索速度
    3. 學習輔助的觀點
    4. 最基本的優使性評估

總共1 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. That's a fascinating topic! It reminds me of a project I recently heard about where old historical maps were digitized for easier access. To enhance their usability, the team worked on **converting JPEG to vector** to preserve the intricate details while allowing the maps to be scaled and integrated into modern geographical information systems. It’s impressive how archival methods and technologies continue to evolve in tandem with digital advancements like these!

    Learn more at: https://www.embpunch.com/vector-conversion

    回覆刪除