Bibliomining for Automated Collection Development in a Digital Library Setting: Using Data Mining to Discover Web-Based Scholarly Research Works
Bibliomining for automated collection development in a digital library setting: Using data mining to discover Web-based scholarly research works
Scott Nicholson
School of Information Studies, Syracuse University, 4-127 Center for Science and Technology, Syracuse, NY 13244
e-mail: Scott Nicholson (https://mail.google.com/mail?view=cm&tf=0&to=scott@scottnicholson.com)
http://www.bibliomining.org/
關鍵字
data mining • collection development • World Wide Web • web sites • intelligent agents (software) • digital libraries
摘要
本研究建立了一個智慧型代理人,用來自動地蒐集數位圖書館館藏。他使用了預測原型來選擇在網頁上的學術研究。選擇的指標是來自於學術圖書館的篩選文獻,並且透過疊慧法(Delphi)來定義出41項指標。接著設計出一套Perl的程式,用來分析網頁在指標中的分數,並且區分成為學術研究與非學術文章。
書目探勘(Bibliomining),或是說資料探勘應用於圖書館上,將會用來建立不同的分類原型。在本研究中使用了四種技術:logistic regression、nonparametric discriminant analysis、分類樹(classification)、以及類神經網路(neural networks)。最後用來評鑑測試資料的指標是資料檢索傳統的求準率(accuracy)與求全率(return)。
最後,有一些問題頁面,那是指太過類似於學術研究導致難以分類的頁面,例如研究目的、個人履歷等等,也會拿來做探討。
這結果的原型可以用來自動地創造以網頁學術文獻為基礎的數位圖書館館藏,而且此技術可以用來延伸建立其他同樣是數位資源的數位圖書館館藏。
來源
Journal of the American Society for Information Science and Technology
Volume 54, Issue 12 , Pages 1081 - 1090
Published Online: 7 Jul 2003
Copyright © 2003 Wiley Periodicals, Inc.
全文可由 Google學術搜尋找到。
報告投影片
讀後感
從網路搜尋到學術文章,現代人馬上想到的一定就是Google學術搜尋,以及在本文的文獻探討當中當中也有提到另外一個CiteSeer等網站。本文用來判斷研究文獻的指標技術跟上述兩個網站是不一樣的,他是利用這41條指標來建立判斷的依據,然後在結論提出修改的建議。
然而,關鍵的地方在於作者是如何用Perl來分析出網頁在這41條指標中的分數,可惜大概是因為收錄在SSCI,在敘述上較著重於文獻探討與指標定義的過程,而技術方面的細節就被省略了。從這裡可以看得出SSCI(社會科學引文索引,Social Science Citation Index)與SCI(科學引文索引,Science Citation Index)或EI(工程索引,Engineering Index)的差別,的確也是很有趣的發現。