A Knowledge Network Constructed by Integrating Classification,Thesaurus, and Metadata in Digital Library
12月 04, 2007 0 Comments 政大圖檔 期刊論文閱讀
A Knowledge Network Constructed by Integrating Classification,Thesaurus, and Metadata in Digital Library
書目資料:
- 篇名:A Knowledge Network Constructed by Integrating Classification,Thesaurus, and Metadata in Digital Library
- 作者:JUN WANG
- Intl. Inform.&Libr. Rev. (2003), 35, 383~397
摘要
現今檢索系統最常使用的技術是關鍵字檢索(keyword-based search),然而這種方式卻忽略了詮釋資料(metadata,因為習慣所致,接下來我都會寫成metadata)的價值。該文將結合分類法(classification)以及索引典(thesaurus)而成為一種概念網路(concept network),然後將metadata記錄依照主題(subject)排列。
該文並建置了一個系統VISION用來驗證其理論,這是結合了漢語分類主題一體化詞表(Chinese Classification and Thesaurus)與北京大學圖書館的書目資料計算而成的結果。
這種概念網路不僅只是metadata的組織框架,同時也是一種知識導覽、檢索、以及學習的結構,而作者相信它將會把數位圖書館提升成為知識管理中心。
好啦,反正這種自動產生概念網路的論文很多,好處跟優點大家都差不多。所以要看這種論文,重點要擺在理論與實驗驗證的部份,該文的實驗部分僅有系統介紹,並沒有證實用的測試數據,故以下僅談理論部份。
知識網路整合分類法、索引典以及詮釋資料 Knowledge Network Integrating the Classification, Thesaurus, and Metadata (KNICTM)
這方法是把分類法與索引典當成是組織書目資料的骨架,而書目資料則是框架的內容。在這種作法中,藉由從書目資料自動地抽取出新的辭彙,可用於更新分類法與索引典,以構成知識群組。最後分類法與索引典也會符合專屬領域的OPAC資源(Open Public Access Catalog,開放線上目錄,就是圖書館網站裡面最重要的那個查詢系統啦)。
KNICTM的作法有三個步驟,整個過程最後將會產生出一棵樹(tree)。這步驟簡單來說各別是創造骨架、充實內容、新增內容:
1. 以分類法與索引典為基礎,建構原始的概念節點(concept node)
首先,要將索引典轉換成原始的概念網路,它包括了節點(nodes)與邊(edges)。
每個節點都是一群同樣意思的主題詞,包括了索引典中所有相關的詞彙。如果兩個主題詞之間有層級的關係,這兩個節點則連上「is-a」的邊,表示兩者之間有所關聯。is-a白話就是「是一個」,例如「正方形」「是一個」「長方形」,大概是這種感覺。
如此不斷重複的訓練過程,就能夠將分類法嵌入概念網路中。這個概念網路你可以想像成一個骨架,能夠呈現出分類法與索引典的骨架。
2. 將書目資料加入概念網路中
將相關的書目資料結合之後,摘要概念節點(abstract concept node)將可以成為知識節點,而概念網路(concept)將轉變成實體的知識網路(knowledge)。從這邊你可以稍微理解概念網路與知識網路的差別了,一個只是架構,另一個則是有東西在裡面。
將書目資料記錄(bibliographic data records,BDR)結合到概念網路的方法如下:
如果BDR只有一個主題詞,那麼就直接找到相關的概念節點,並把該BDR加進去。如果BDR包含了許多的主題詞,那麼就照上面的作法一一將主題詞加入,很廢話。
重點在於,如果BDR中有多個主題詞組成的混合主題詞(composite subject)時,就要創造一個新的概念節點,然後將它與其他偶關聯的節點連上「related-to(關聯到)」的邊。這個新的節點稱為「co-concept(聯合概念)」節點,該節點只有BDR並且此時沒有主題詞(因為不是由第一步的分類法與索引典而來的)。
例如BDR有個主題詞叫做「Internet Firewall Technologies(網際網路防火牆技術)」,它與「Network-Security(網路保全)」有關,但是在索引典裡面並沒有「firewall(防火牆)」這個詞。現在就要建立一個co-concept節點,然後用relate-to把它跟Network與Security節點連起來,而這個包含BDR的co-concept節點就是關聯的驗證。
在下一步當中,要把新抽取出來的詞彙加入co-concept當中,在此例裡面就是將「firewall」加入。
KNICTM需要經常手動(?)檢查確認co-concept是否正常建立。當更好的詞彙可以代表的這個co-concept的時候,該節點將會轉換成通用概念節點(common concept nocde)。你可以想像成原本的節點達到足夠重要的條件,所以將它升級的意思。只是為何要用手動檢查呢?
3. 加強KNICTM
這是最後也是最困難的工作,現在要從metadata集合當中找出新的辭彙,以加強KNICTM。
一般來說,科學性的文獻通常可以從標題去抽取出關鍵字,以找到相對應的主題詞。從語意上去對照,即可找出新的辭彙,並且將它加入概念網路中。
這邊有三個困難之處需要克服的:
- 標題中如何分辨重要與不重要的辭彙?
- 該怎麼決定抽出來的詞彙要不要加入到KNICTM?
- 中文斷詞,這是中文檢索永遠的問題
最後KNICTM將會長得像一棵樹。我覺得作者在此時應該放張圖片來說明,這樣應該會更好懂,所以我決定畫張圖來說明吧!
這張圖有簡化過概念,我覺得這樣應該會比作者的敘述更好理解。想要實作的話就再繼續細讀這篇後面的實驗部份吧!
剩下的篇幅,作者都在介紹他的VISION實驗系統。只是單純介紹系統的話,我覺得那是要等實作的時候再去觀摩就好。
本來很想知道到底KNICTM的演算法能作到什麼程度,作者要用什麼方式去驗證,或是比較KNICTM與其他的concept network的優劣,可惜都沒有這方面的資料。
故本篇閱讀心得也到此為止,感謝大家收看。
(more...)爆肝詩
12月 03, 2007 0 Comments 輔漫
爆肝詩
大意逢朝陽,
今夜又爆肝。
牛有四顆胃,
人無四顆肝。
大一時MSN名稱上所作之爆肝詩,日前社遊時又被人提起,似乎頗值得玩味,故記之。
(more...)發現享受好天氣的高手
12月 03, 2007 3 Comments 日記 極短
發現享受好天氣的高手
相較於冷到不行的夜晚
最近白天的太陽真的是讓人心情舒爽的來源
看著友人竹竿的MSN上寫著「天気がいいから、散歩しましょう(因為是好天氣,一起去散步吧)」
我真是心有戚戚
巴不得把筆電帶到陽台,一邊做報告一邊曬太陽
也難怪古人會想把冬陽獻給皇帝,「野人獻曝」一番
不管待在皇宮裡面有多暖和,還是比不上太陽公公還來的舒服吧
日前在機車場停車的時候,發現到這隻貓正懶洋洋地趴在別人的機車上。
看看這表情,牠真是會享受這暖和的陽光
這種體驗生活樂趣的方法,我要像牠多多學習才是
(more...)第一次的計畫書口試旁聽
12月 02, 2007 0 Comments 政大圖檔 碩士畢業論文
第一次的計畫書口試旁聽
「這是我第一次口試耶,好緊張喔。」穿著全身套裝的學姊如此說的。
對於我來說,這是我第一次參加計畫書口試的旁聽,也是一樣地緊張。
計畫書、口試與畢業
上週是我們所上的計畫書口試期。根據所上的規定,必須要通過計畫書口試之後六個月,才能作畢業論文口試。往前推算六個月,差不多就是這段期間。
所謂的計畫書,就是畢業論文的前面部份,包括了研究目的、研究問題、相關文獻探討、研究方法說明。如果完成整個畢業論文的話,後面還會有研究結果、結論。這大概是一般論文的架構。
提計畫書的時候,通常尚未開始正式進行實驗(實作研究理論)。也就是說,實際進行實驗的期間只有數個月。
只要通過碩一暑假的資格考、或是擁有投登期刊論文的資歷,那麼就可以提出計畫書口試的申請。修完學分並通過口試之後,碩二就畢業是很正常的事情。這是政大圖檔所的特色,許多研究所,特別是文學院的,都必須要修完學分才能開始研究,因此最快也只能到碩三才能畢業。
開始進行研究,也就是提計畫書的方法,通常都是要與論文指導教授配合。每個老師的習慣都不太一樣,陳老師很早就會找學生進他的研究團隊,然後在每週一次的團體開會(通常是說meeting)中,逐漸找到論文題目的方向。
印象中,似乎是碩一下的時候開始找老師,然後碩二開始的時候決定指導教授的樣子,我忘有點了,大概是因為我在入學之前就已經跟了陳老師,所以我也不太在意。偶爾聽說了其他同學的狀況,通常頂多是只有幫老師做研究,也還不到談論論文題目的程度。
接著來聊聊決定論文題目方向的話題。之前有聽說「研究生抱怨老闆(指導教授)不給論文題目,害他不能畢業」這種事情,雖然你也可以想說是他研究能力不足,不過實際上的確很多學生的論文題目是指導教授決定的。以陳老師的說法是:「與其讓學生自行決定不成熟的題目,不如由老師來把持、決定。」
另一方面是教授很常拿學生的研究題目去提研究計畫,例如常聽到的國科會、什麼什麼計畫的。因此會統一研究團隊的題目朝幾個方向進行,屆與屆學生之間的題目會有繼承、延伸的關係。舉例來說,陳老師之前的學生在做無線網路定位的技術,之後的幾位學生也是將這技術做其他方面的研究。「你去study一下某學姊的東西」這種話,也常常可以在meeting的時候聽到。
有些研究生不太喜歡老師幫他指定題目,覺得沒有自由發揮的感覺。但唯一可以確定的是,這樣做研究時通常比較能有足夠的資源與支援,最後比較快畢業。
Group Meeting
既然聊到這邊了,那接下來就講一下meeting。陳老師的meeting風格很特殊,至少我身邊的朋友還沒有這樣子的meeting方式。我們是每週一次的group meeting,陳老師的學生們,包括政大資科、政大圖檔、花師的學長、師大工教所與大學部的專題生等大約十來人,全都齊聚一堂,來做團體的開會。
meeting的流程大致上是,老師先報告他最近的事情與研究的方向,然後接下來有要報告的學生上去報告,正在進行研究或計畫的通常會報告進度,沒有的話則挑個最近在研究、閱讀的文獻上去報告(就是paper study啦)。報告的頻率大概是每隔週一次,也就是說每次大概都有四、五個人上去報告。每次meeting的時間短則三小時、長則甚至到五個多小時都有。
一開始我也很不適應這種meeting方式,不過後來就習慣了,當作一門自由的課堂上課。group meeting的好處常常可以聽到其他人的研究進度,這也是學姊計畫書口試的時候,大部分內容都是我聽過的原因。
其他老師的meeting風格不至相同。大部分是會分成單獨meeting與團體meeting,與老師一對一的時候是討論畢業論文,團體的時候則是paper study。可以的話,以後也想多多接觸不同的meeting風格,看看不同教授指導學生的風貌,似乎也是不錯的。
計畫書口試
好,講了這麼久,終於回到計畫書口試上了。
上週我去旁聽同樣是陳老師指導的學姊的計畫書口試。大概從上個月開始,老師每週都要讓他們提計畫書的人上去報告,一路撰寫、修改。撰寫完計畫書之後會送至計劃書審核委員的手上,通常是要在一週之前送到,然後到計畫書口試當天正式審核。
圖檔所計畫書口試時會找三位口試審核委員(簡稱口委),一位是論文指導教授、一位是所上教授、另一位則是相關領域的校外教授,規定中寫到至少要一位是校外的。除了報告的學生、口委之外,還要有至少一位學生負責記錄、錄音,輔大圖資的學長姐還會動用攝影機,以便之後修改計畫書時不會忘記。(在這邊我要說聲抱歉,我那時候真的以為是去旁聽的,結果什麼都沒帶,也都亂記一通orz)
計畫書口試過程大概兩個小時左右,學生報告時間約20分鐘,接下來由口委對計畫書內容提問。報告的內容就如之前提到的計畫書內容,以投影片的方式做介紹。口委對計畫書的提問,英文叫做challenge,比較接近質問、懷疑、要求的意思,而不是單純的不懂發問。
提問的過程是整個審核的重點,老師們提問的要點有很多,從研究題目是否明確、研究方法的可行性、資料分析方式是否能夠驗證研究假設、對於模稜兩可的名詞要求清楚的解釋、到計畫書的書面格式都會一一檢視。
學生能不能提出令口委滿意的回答,則是審核是否能夠通過的關鍵。如果是一些明顯的缺失、未補足的資料,只要事後補完即可的話,那是比較好的狀況。棘手的問題,我覺得是針對研究目的、研究方法等核心的質問,這意思就好像口委認為你「這個研究從根本上出了問題」的感覺。
能夠給提問一個清楚的解釋、或是臨時加上補足的方式,當然是最好的。不過再怎麼充足的準備,我想還是很難避免被問到啞口無言的時候。這也是老師跟學生層級上面的差距,老師考慮的程度與細節往往是學生沒有注意到的,這時候就可以看出老師的厲害之處。
有時候口委會提供修改的建議,另外也可能是因為學姊的論文題目是指導教授給了很多意見的緣故,老師也會幫忙回答(英文稱為cover,掩護的感覺)、總結提問,老師緊張的程度我看應該不輸給被質問的研究生吧。
不過那時候指導老師到沒提出什麼問題,我想應該是在meeting的時候也問的夠多的原因。
旁聽的學生同時也擔任紀錄,紀錄也就是修改計畫書的重點筆記,所以口委提問的內容、建議、當時決定的修改方式,都是需要紀錄的。(別像我這樣兩手空空的過去聽啊orz)
在討論了一段時間之後,最後要決定計畫書是否通過。圖檔所的方式只有三種:未通過、通過但需要修改、通過不需要修改。圖檔所除了在職生沒辦法這麼快決定題目之外,幾乎所有的碩二學生幾乎都在這時候提出了計畫書口試申請,而似乎很少在計畫書階段不通過的案例。但這不代表審核過程並不嚴謹,應該是歸功於用功的學生跟認真的指導教授們吧。
最後提到當天的場佈跟餐點。口試時除了正式的服裝、完整的書面資料及筆記用空白紙以及報告用的電腦設備之外,通常還會有餐點與飲料。
每個研究生準備的餐點都不太一樣,有的是水果、有的是麵包餐盒(很多種麵包的那種),遇到正餐的時刻,還會有便當。我聽過有人準備了沒剝的荔枝,好像不是很方便吃的感覺。實際上,好像口委們都不會在當場吃這些餐點,大部分會在口試之後帶走。我想這可能是所辦常常有食物可以吃的原因之一。
飲料是必備的,因為講話講這麼久口會渴。一般是泡茶,楊老師常提醒學生有外賓來要泡咖啡,能準備的多周全就盡量準備吧。
儘管計畫書口試的過程著重的是研究的內容,但這些服裝與場佈就像是誠意的展現一樣,我覺得也是很重要的。
過程中就算是旁聽的我常常為學姊捏一把冷汗。最後結果,當然也是過啦。
學姊在口試之後放鬆地說了一句話:「我大概接下來一個月之內都不會碰這些東西了。」不過我想,實際上應該很難吧(笑)。
參與口試計畫書的經驗相當有趣且珍貴,今天是學姊口試,明年可就換我們這屆的人在台上了。
同時我也再次體驗到了自己程度上的不足。聽到口委們提出那些切入核心的問題,我會同時思考自己要怎樣才能跟他們一樣看得這麼深、表達的這麼清楚。當然,很多是我未能達到境界,只能繼續加油囉。
題外話,平常穿著樸素的學長姐們,在這段期間都變身成為西裝帥哥跟套裝美女,真讓人耳目一新呢。
(more...)
Comments