:::

統計課本的公式,期刊論文的公式

統計課本的公式,期刊論文的公式

上式是資訊計量學三大定律當中的齊夫定律(Zipf's law),式中C為一常數;fr為較長文章中每個詞出現的頻率;r為與fr相對應的賦予詞的序號。

~引用自馬悅英,分形論在情報學中的應用,圖書情報工作,1998年第5期。


今天剛考完統計,範圍是敘述統計的部份,也就是平均數、變異數、標準差、機率以及常態分配。題目不難,公式也很好理解。

考完試的下午我繼續讀資訊計量學要看的「分形論在情報學中的應用」,短短三頁,但是卻有著11個公式,而且每一個都看不太懂。

翻翻蔡明月老師所著的「資訊計量學與文獻特性」,回想一下老師上課時公式講解,似乎自己都能夠理解。但是為什麼讀這期刊論文時,卻覺得這公式怎麼這麼難懂呢?

更甚者,光是看公式就看不懂了,那以後要怎麼寫出這些公式呢?未來真是讓人擔憂啊。

(more...)

大圖盃與布萊德福定律

布丁布丁吃布丁

大圖盃與布萊德福定律

根據排球場上選手碰觸到排球次數的多寡,依遞減次序排列,這些選手將可分為一個核心區(第一區)及接連的數區,且每一區包含大約相同的文獻篇數,則各區選手人數的比例將呈現1:n:n2......的關係,其中n大約是5。

以上說明只是在加油的時候想到的,其實要說的是:

恭賀政大圖檔所奪得第33屆大圖盃運動會男子排球賽季軍

選手之夜的時候,以前輔大的學姊發現我是五年以來第一次參加大圖盃,問我有沒有覺得很棒。雖然還不到感動到流淚的地步,不過也覺得人生的視野好像又擴大了一些。

我參加了桌球混雙,其他就是來喊加油。對我來說,球場是一個很不熟悉的場所。在我這個不懂規則的人的眼中,球員、裁判、旁邊加油打氣的人,都做著許多似乎已經約定成俗的規律動作。我一邊看著、一邊學著怎麼做,既然來到球場了,那就學著當裡面的一份子吧。(雖然打牌好像不是球場該出現的行為啊......)

(more...)

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

布丁布丁吃布丁

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW
Bookstein, Abraham. Scientometrics. 30(1):353-361, May 1994.

Bradford定律可以具有實務與理論價值。在應用上,可以指引圖書館館藏發展需要增減哪些文獻。而在理論上的衝擊則是更重要且有趣,。
Bradford定律在多學科中有以下多種方式:

  1. 經過布拉德佛型態分析的期刊通常是多領域的。單一領域的布拉德佛分析將各種期刊切片(slice),而且據觀察,如果有另一種切片在同一種期刊裡面產生,布拉德佛規律將會再次發生,但是是描述不同領域。
  2. 定義主題領域具有某種程度上的獨斷性(arbitrary),而且包括整合更多已定義的領域。
  3. 簡單的單一領域版本必須在某種程度上浮現主題之間非常動態複雜的互動。除非我們研究多領域基礎的形成,否則我們不能理解單一領域的布拉德佛規律。
  4. 最有用的是,我們必須用上所有領域來評鑑期刊的價值。

這篇論文有幾個目標。最重要的是強調用多領域的觀點處理文章發散,並且看到傳統布拉佛德型態規律在多規律領域中描述單一規律碎片。而且,我們試圖定義描述與分析多規律發散現象的基礎概念。我們討論從競爭過程中浮現的期刊發表的單一規律模式;為了要指導我們定義基本概念,我們應該創造一種競爭模型,並且研究這些模型裡面需要哪些實體。

期刊評鑑的模型需要有以下指標:

  • 動態:因為文獻一直在增加。
  • 可靠的多領域散佈狀況:能夠帶出正確的分析
  • 抵抗不確定性:資訊計量學規律最重要的特色。

在接下來的段落中,該論文依據以上指標推導了一連串公式,最終為。t為文章總數,a為可觀察的數量,陣列R則是假設給定的値,跟之公式推導中的領域F相關。

結論則是探討公式模型參數之間的變化,然後假設情況套入公式模型檢驗是否可行。然後提到使模型更為精細需要更多隨機資料。但是作者相信這個簡單的模型已經能夠展現期刊出版關鍵的特性。

(more...)

期刊論文的作者合作度與合作作者的自引分析

布丁布丁吃布丁

期刊論文的作者合作度與合作作者的自引分析

期刊論文的作者合作度與合作作者的自引分析
蔣穎、金碧輝、劉筱敏,圖書情報工作,2000年第12期,23-28頁。

本篇作者用統計的方法來分析期刊論文的作者合作程度,再統計合作作者的自引數量,推測合作作者群當中對於一篇文章的貢獻程度。統計資料來源是「中國科學引文資料庫」在1989年和1998年兩個時期,比較9年差別的變化,並考慮了資料庫收錄期刊數量的增加。合作度比較了12種學科,接著更進一步比較數學、物理、醫學這3個有代表性學科的數據來做細部分析。

期刊論文的作者合作度,是以「人」為單位為,一篇論文有幾個作者就稱該文的作者合作度為幾人。

  • 9年間合作規模有明顯地擴大,合作形式成為科學研究的主流。

  • 依據學科性質的不同而會合作程度也不盡相同,理論性越強的學科合作度越低;實驗性越強的學科合作度越高;介於理論與實踐之間的學科,其合作度為中等。因此作者建議在研究相關問題時,最好能根據學科性質區別對待。

作者自引的定義為文章作者引用自己的其他文獻的行為。然而在合作現象當中,如果一位作者引用了一篇他自己並非為第一作者的文獻,也應算做自引一次。但由於資料庫只有收錄被引用文獻的第一作者,所以在此文章中各種自引數都不包括這一部份。

研究結果顯示:

  • 9年間論文作者整體自引量有大幅度的提高。

  • 合著情況下,各作者在文章中的排序與個人自引百分比總體狀況是相反,第一作者的自引百分比遠高於其他作者。

  • 合著中存在著「臨界合作度」,當合作度小於臨界值時,第一作者的自引白分比隨著合作規模的增加而降低;反之當合作度大於臨界值時,第一作者個人自引百分比呈上升趨勢,這說明合作規模達到一定程度之後,合作研究中的分工方式發生變化。

本文認為作者的自引百分比近似於作者的名譽分配比例,就本文分析結果來看,可以按照該比例分配作者的權重。一般來說,作者的自引數會按照文章中排名順序遞減,但是從各學科來看,最後一個作者的自引數比常常高於前面幾個的作者。這可能與最後一個作者經常是研究的組織者、指導者有關。

(more...)

Automated user modeling for personalized digital libraries

布丁布丁吃布丁

Automated user modeling for personalized digital libraries

Automated user modeling for personalized digital libraries E. Frias-Martinez, G. Magoulas, S. Chen, R. Macredie International Journal of Information Management 26 (2006) 234-248

數位圖書館(Digital Libraries, DLs)已經變成取用數位化資訊最普遍的方式。因此,使用者歡迎任何改進數位圖書館的方法。其中一種服務就是從個人化(personalization)著手。到目前為止,數位圖書館常見的個人化服務依然是以使用者自行設定為主。儘管如此,為了要發展出高效率的個人化服務,現在可以加入自動化的方法。在這種情況下,機器學習技術(machine learning techniques)可以自動建立使用者模型(user model)。該論文提出了一種可以滿足使用者對資訊需求的新方法來設計數位圖書館:自動適應數位圖書館(Adaptive DLs),系統將會自動學習使用者的偏好設定與目的,並依此提供個人化的互動使用經歷。

該論文最重要的地方是提出了數位圖書館使用者模型的九個面向:個人資訊、認知型態(cognitive style)、設備、情境、歷史記錄、興趣、目的、系統使用經驗、領域專業知識。然後介紹相關的機器學習技術,建議用哪幾種方式來建立使用者模型,並帶出相關的研究,供讀者可以繼續延伸閱讀。

(more...)

meeting之後的討論

布丁布丁吃布丁

meeting之後的討論

今天meeting只有三個人報告,最後我報的paper連自己都快要不知道自己在說些什麼,接著老師講些想到的題目,然後聊起了其他話題,不過大多數之前都聽過。meeting在三個小時之內結束,算是蠻快的了。

收拾東西的時候,聽到學長姐在討論最近研究上的瓶頸。大意是要拿未知詞彙跟兩萬多筆資料計算相似度,花費時間過長,該怎麼改善。大家一邊思考、一邊提意見、畫黑板,討論這個點子的可行性。最後想出了一個兼具精準度與速度的折衷方法,大家鼓掌叫好。

就是這種氣氛,讓我願意每個禮拜都來團體meeting吧。

(more...)

洪淑芬演講「Metadata建檔規劃與檢索呈現」

布丁布丁吃布丁

洪淑芬演講「Metadata建檔規劃與檢索呈現」

今天臺大圖書館特藏組的洪淑芬主編來演講臺大圖書館在製作數位典藏過程的實務經驗。投影片上面寫著內部文件請勿流傳,那我就以自己的方式重新整理今天的演講吧。

Metadata的用處及重要性,我想大家都能照本宣科,但實際建立的過程,我想這並不是照書上講的就能夠建出來。一般來說,設計的基礎可以參考文建會設計的多種詮釋資料格式,再進一步調整成適合描述典藏目標的格式。然而,文建會的metadata其實只有考慮到描述層面(Descriptive Metadata),在實際使用上是非常不足的!

Metadata有幾種類型:

  • 管理 Administrative Metadata:來源、擁有權、著作權、權限、取用方式等
  • 結構 Structural Metadata:硬體與軟體文件、記述資訊、版本控制、數位化資訊等
  • 描述 Descriptive Metadata

如果要用Metadata Encoding & Transmission Standard(METS)作為交換資料的格式的話,還要考慮到更多層面。但至少上面這三種類型的Metadata,是實務上必須要考量進去的。

對應到今日洪主編演講的實務內容,她的「數位檔案命名」與「檢索欄位關聯」等主題都涵括在管理及結構metadata裡面。儘管洪主編自謙以實務起家再學理論,但能考慮得如此周詳,也是很値得敬佩。


臺大執行數位典藏計畫另一個重要關鍵,那就是不依附系統的獨立建檔方式:Excel。

對碰過很多系統、對於資料庫設計也有不少經驗的我來說,深知製作一個完美的資料輸入流程是非常困難的事情。做到最後,通常建檔者得屈就於系統設計者,而一再屈就、下降目標的最後,連系統設計者也會遺忘原來的設計目的。這是一種惡性循環的陷阱!

相對的,臺大以Excel這種容易操作、建立、比對的方式建檔,增加了更多自由性。在建檔同時,也可以一邊快速地對於metadata欄位編修,因而不需要等待系統花時間修正。而最後調整到最後的欄位,依此做出的系統也可以有較佳的呈現。

在製作DSpace的時候,我有研究過台大的數位典藏DARC。他們用Excel建立的Metadata資料,甚至沒有直接對應到DSpace的欄位,而是另外儲存為一個xml的檔案供全文檢索與擷取顯示。

相較之下,去年頂大計畫的百年圖書館歷史中,我們嘗試去調整了DSpace的Metadata,最後結果卻無法應付不斷修改的欄位而一團亂。今日洪主編的演講,再再切入我心,越聽越是悔不當初。


演講後跟同學聊到此事,她說很欽佩洪主任,雖然沒有程式概念,卻能將資料分得有條有理。我認為,這才是圖書資訊人員的專業。至於資訊工程的專業,則是在於研究該怎麼把這種想法實作出來。

實際上,研究所培養出來的領導人才,確實不需要有能力實作系統,反之像洪主編這種能夠知道概念而能夠領導眾人順利完成計畫,這才是有價值的目標。

嗯,加油吧!

(more...)