數位人文檔案應用:地理資訊檢索系統 / Linking archival data to location: a case study at the UK National Archives
這是國際檔案學的一篇論文閱讀課堂報告,這篇文章主要介紹英國國家檔案館 (The National Archives, TNA)為檢索檔案的地理資訊而設計的各種資訊檢索系統。在文章發表的2011年時「數位人文」(Digital Humanities)一詞尚未成形,但應用地理資訊與融入複雜的IR技術的作法儼然已經是走在數位人文的前端。
有興趣的同學可以直接上英國國家檔案館實驗室來實際玩玩看喔:http://labs.nationalarchives.gov.uk/wordpress/
書目 / Bibliography
Clough, P., Tang, J., Hall, M. M., & Warner, A. (2011). Linking archival data to location: a case study at the UK National Archives. Aslib Proceedings, 63(2/3), 127-147. doi:10.1108/00012531111135628
摘要 / Abstract
英國國家檔案館(The National Archives, TNA) http://www.nationalarchives.gov.uk/
- 目的:英國國家檔案館(The National Archives, TNA)是英國政府機關的檔案館。TNA保存了超過1000年以上的實體與數位檔案。從TNA的線上目錄搜尋的結果來看,讀者時常需要查詢檔案的實體地理位置。這篇文章的目的在描述TNA如何抽取檔案中的地理資訊,以提昇檔案的取用效率。
- 研究方法:為了能夠快速地從現有檔案資料中取出地理資訊,本研究採用現有的自然語言處理技術(Natural Language Processing, NLP)以及地理資訊檢索系統(Geographical Informaiton Retrieval, GIR)來應用在這些歷史檔案上。
- 研究發現:使用電子資訊為檔案添增資訊可以讓TNA能夠進行許多個案研究,以揭示地理資訊如何讓大量檔案更容易取用。現在GIR領域與相關技術所使用的方法,例如OpenLayers,可以輕易地轉移技術到其他機構中。
- 實務影響:這篇文章講到的方法與技術可以用在其他檔案館上,讓其他檔案館透過類似的方式提昇歷史檔案的取用效率。同樣的,檔案分享方法也可以用來整合其他檔案館的知識。
- 研究價值:地理資訊是TNA檔案資料中常見的資訊。許多檔案都包含著地理資訊的參考(例如遺囑(wills)、法律、法庭個案),大約55位
PDF註解下載 / PDF Annotation File
筆記 / Notes
3.1 The role of TNA [P.3]
英國國家檔案館不僅保存著1000年以上的歷史檔案,也針對公部門與民間企業提供檔案保存與找尋的建議與指導。
TNA是由Public Record Office (PRO,公共檔案館,1838年成立)、Historical Manuscripts Commission (歷史手稿委員會,1869年成立)、the Office for Public Sector Information (OPSI, 公部門資訊局)、以及Her Majesty’s Stationery Office (HMSO, 1786年成立)所組成。
3.2 Datasets held by TNA [P.3]
TNA主要保存四種檔案:
1. 原件 Original document
- 包含紙本與數位格式(來自Electronic Records Online, ERO),再以數位化複製提供線上取用(透過Documents Online)
- 數位化的文件僅佔檔案的少數量,而且有做OCR文字辨識的更少
2. 目錄 Catalogues:
- 描述TNA藏品內容,記錄英國檔案典藏品的位置。
- 目錄主要來自TNA的藏品目錄,其他有National Register of Archives (國家檔案登記局)以及E179 Taxation資料庫
3. 公開資訊 Published information:
- 特別是來自 London Gazette (倫敦名錄)、政府公報檔案、以及Statute Law Database法律資料庫
4. 其他:
- 包括 ARCHON Directory的檔案聯絡資訊、Your Archives 檔案個人化服務、wiki讓讀者貢獻檔案的內容
4.1 Sources of geographical knowledge [P.6]
要從檔案中抽取地理知識的話,最常用的就是「地名辭典」(gazetter)
地名辭典通常包含:最少有地名、地理特徵與地理位置
地名辭典的來源包括:
- 官方地名辭典
Gazetteers of “official” toponyms (e.g. the Ordnance Survey 1:50,000 Scale Gazetteer). - 已出版的的地圖集
Indexes accompanying published atlases (e.g. Multimap.com). - GIS資料集
Place identifier tables accompanying GIS datasets. - 地理權威檔
Place authority files (e.g. Vision of Britain) and rules (e.g. NCA Rules for the Construction of Personal, Place and Corporate Names) - 以往出版的地名辭典與百科全書 (e.g. Gazetteer of Great British Place Names).
- 線上資源 (e.g. Wikipedia.com).
本計劃為了找尋英國地理資訊,主要使用了以下資源:
- Getty地理辭典(Getty Thesaurus of Geographic Names):包含了1百萬的名詞與其他資訊(包含政治與歷史資訊)
- Ordnance Survey 1:50,000 Scale Gazetteer (OS50k):包含26萬筆現在與過去的英國地名
- Ordnance Survey Code-Point:提供英國郵遞區號
- GeoNames:包含超過8百萬世界各地的地名與郵遞區號的線上資料庫
- Gazetteer of British Place Names 英國地名辭典:包含超過5萬條英國地理位置
- UK Placename Finder 英國地名搜尋引擎:包含超過3萬筆英國地名的光碟資料庫
- Seamless Administrative Boundaries of Europe:歐洲行政區地理位置的資料集,由歐洲各國負責維護,其中包含了英國2萬2筆地名。(布丁註:好像改成ABDS, Administrative Boundary Data Services了)
- Alexandria Gazetteer:包含5百9十萬地名與特徵,主要是收錄美國地名,但也有4百萬其他地方的地名。
除了上述資料之外,還有其他資源可供使用:
- Wikipedia:可以透過自動抽取來建立地名辭典
- Geo-X-Walk:可在EDINA使用、提供英國地名、郵遞區號以及搜尋的API,容易讓程式取用
- Geograph:這是一個蒐集英國地理照片與資訊的計畫,提供API取用資訊。
- Yahoo Geocoding API:可免費使用的線上服務,提供地址與地名的列表 (布丁註:現在已經不使用了)
- (布丁註:根據ProgrammableWeb的介紹,還有Bing Maps Geocode、Data Science Toolkit API、Google Maps API、MapQuest Geocoding API、OpenAddresses GeoLocated Address Search API)
4.2 Identifying and resolving geo-references [P.8]
準備好參考資源之後,接下來要從檔案中找出需要結合地理位置的地名
這個抽取地名動作叫做Named Entity Recognition and Classification (NERC),作法是:
- 以單字組成預先定義的目錄(包含「非地名」)
- 該目錄通常包含地理位置、人名與組織名
NER系統通常包含三大元件:
- 斷詞器(tokeniser):將一大段文字拆成句子、將句子拆成個別文字
- 地名辭典:包含地名、人名、組織名等等
- 配對器 (Named Entity (NE) grammar):考慮文字特徵來附加其他資訊
geo-coding 地名辨識:辨識地名時需要進行消歧(disambiguating),以下是兩種常見的地理混義現象(ambiguities in geo-references)
混義現象 ambiguity | 地理位置 location | 地理名稱 place name |
Referent ambiguity | 不同 | 相同 |
Reference ambiguity | 相同 | 多個不同名字 |
5.1 Challenges [P.9]
歷史地理與時間編碼 5.1.1 Integrating space and time [P.9]:
- 地名會隨著時間變動:地名建立、地名與拼法改變
- 但是地理辭典僅保存現在的官方地名
- 因此TNA地理資料儲存是以下圖的格式進行編碼:
舉例:舊地名(舊時間)-現在地名(現在時間)-其他資訊
分辨歷史地名 5.1.2 Historical places [P.10]:
- 在分辨歷史地名上,TNA採用多次重複編碼的方式整理
- 1. 先找到以現在地名為名的檔案
- 2. 基於這些檔案,找尋其他可能的歷史地名拼法,並將找到的其他地名保存在TNA地名辭典
- 重複以上步驟,直到找不到其他歷史地名拼法為止
異質資料來源處理 5.1.3 Heterogeneous data-sources [P.11]:
- TNA保存的檔案資料形式差異很大
- 需要透過「包裝器」(wrapper),將檔案以結構化形式編碼,並傳給NER與地理元件
處理混義問題 5.1.4 Ambiguity [P.11]:
- 1. 候選地名:當檔案中的地理資訊與地名進行配對時,首先要利用地名辭典,找尋該地名的可能其他地名
- 2. 地名消歧(disambiguation):從這些候選地名中找尋正確的地名
大量資料呈現 5.1.5 Scalability [P.12]:
- TNA以兩階段呈現大量地理資訊:
- 1. 群組點cluster:將地理位置鄰近的資料集中為一點,讀者點入時才顯示完整資訊
- 2. 視覺化摘要:當分群點過多時,以熱區圖(heatmaps)來找尋資料集中趨勢:
5.2 Case studies 系統展示 [P.12]
TNA將實驗成果架設了The National Archives Labs網站。以下介紹其中三種將地理資訊結合國家檔案的例子
Case.1 可供瀏覽與檢索的地理資訊系統
5.2.1 Geographical search and browse [P.13]:
使用資料:以Edian Unlock檔案為雛形的地理資訊系統
伺服器技術:
- 網頁伺服器:Apache Solr
- 全文檢索引擎:Lucene (布丁註:都是Apache家族成員,很常見,可以參考我寫的「全文搜尋引擎Lucene簡介投影片」)
- 地理資訊儲存與處理:LocalLucene/LocalSolr,並使用Cartesian Gird演算法為文件製作地理索引
- 可處理命令:「找尋1. 某文件關鍵字 2. 在10英哩內 3. 從座標[51.5, 20.1] 」
前端地理圖片資訊:
- 使用基於OpenLayers技術的OpenStreetMap
- 能夠縮放(zoom in/out)、指定位置(pan)
- OpenLayers提供自動產生的群組點(clustering)
使用者操作互動:
- 瀏覽檔案:從地圖選擇要觀看的檔案
- 搜尋:從關鍵字搜尋檔案內容
特殊介面
5.2.2 Bespoke series-specific interface [P.15]:
TNA針對Domesday Book的大量檔案設計其他的顯示方式
- 使用者可以直接看Domesday款目的區域,而不必一筆一筆檔案查找
- 以熱區圖顯示檔案數量分析結果,並可加上條件過濾器縮小檢索範圍
資料交換
5.3.3 Developing a shared historical gazetteer [P.15]:
- TNA遵循英國政府推動的公開資訊(open data)技術,以Linked Data的形式提供TNA地理辭典資源
- Linked Data是描述資訊供機器讀取的格式,是語意網(Semantic Web)的實作方法之一
- TNA地名辭典以URI作為辨識資源(地名)的依據,各資源包含地名、地理位置、以及與其他資源的關連
- 下圖是以基於Linked Data的結構,以RDF描述地名款目的範例:
心得
- 令人意外的是非常地IR,很符合數位人文學的趨勢
(↑是的,我認為數位人文學就是IR拓展到人文地理資訊上這樣) - 要如何評估成效呢?
- 求全率與求準率
- 資料檢索速度
- 學習輔助的觀點
- 最基本的優使性評估