:::

程式碼過濾器 / HTML Tag Escape Formatter

程式碼過濾器 / HTML Tag Escape Formatter

上次貼了一個yam天空影音分享下載器的時候才想起其實要貼程式碼還蠻麻煩的,所以寫一個過濾器,把標籤改成脫逸,加上換行、空格排版,應該會比較輕鬆吧。

(more...)

政大圖檔所97學年度錄取名單

布丁布丁吃布丁

政大圖檔所97學年度錄取名單

97學年度碩士班暨碩士在職專班招生考試二階段系所錄取名單 / 2008-05-06

※交叉查榜資料來自於大碩研究所查榜

圖書資訊與檔案學研究所圖書資訊學組一般生 ( 正取計6名、備取計7名 )

圖資組正取6名

  1. 11410030謝志佳(正1) 同時正取師大圖資
  2. 11410037郭于嫙(正2) 同時正取淡江資圖、備取5 台大圖資
  3. 11410029沈東玫(正3) 同時正取中興圖資
  4. 11410042黃浚維(正4) 同時備取輔大圖資丙組、備取2師大圖資
  5. 11410019張琇婷(正5)
  6. 11410036林憶珊(正6) 同時正取中央英文

圖資組備取7名

  1. 11410004吳姵瑩(備1) 同時正取淡江資圖、備取 中興圖資
  2. 11410011郭釗宇(備2)
  3. 11410010王尤敏(備3) 同時正取中興圖資、備取6 台大圖資、正取師大圖資
  4. 11410025汪貝珊(備4) 同時正取輔大圖資甲組、備取5師大圖資
  5. 11410013趙子萱(備5) 同時正取師大圖資
  6. 11410012趙以琳(備6) 同時備取8台大圖資
  7. 11410020邱惠琪(備7) 同時正取輔大圖資甲組

圖書資訊與檔案學研究所檔案學組一般生 ( 正取計3名、備取計2名 )

檔案組正取3名

  1. 11420008周旻邑(正1)
  2. 11420007余昌蓬(正2)
  3. 11420001莊詒婷(正3) 同時正取淡大資圖 、正取師大圖資

檔案組備取2名

  1. 11420006黃眉湘(備1)
  2. 11420004董雯文(備2) 同時正取淡江資圖、正取 輔大圖資甲組 、備取6師大圖資

唔,王老師在說男生又變少了,有點不平衡。不過就算我們這屆男生已經佔了快一半了,整個氣氛還是以女性為主啊。

順道一題,政大圖檔所資訊組(可以玩一堆電腦喔!)以及橋牌組招生中!僅正式錄取的學弟妹可以報名喔!

※2008/5/19:應師大同學要求,加上了師大榜單的資料XD

(more...)

Another Test of the Normative Theory of Citing

布丁布丁吃布丁

Another Test of the Normative Theory of Citing

Another Test of the Normative Theory of Citing (原文PDF網址布丁標註過的PDF檔) 引用理論的另一個測試

M. H. MacRoberts and B. FL MacRoberts JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE. 38(4):305-306, 1987


前言

一般的引用理論是源自於科學家為了「獎勵」同儕透過引用來使用他們的研究,因此科學家給予應得的功勞(credit)。這是遵照著「科學家在他們自己論文裡面引用的研究大致反映了他們研究」。因此引用可以用來測量或指出研究的品質或影響力,建立認知上的血統(cognitive pedigrees),以及描繪科學的網路與專長。

在先前的文章中,作者檢驗了引用理論了一個預測。作者閱讀文章,並記錄任何影響,不管它到底有沒有被註明是引用。最後作者只找到30%有被註明。

引用理論也預測了作者應該不會偏好引用。因此,當作者完全沒有引用時,他有可能按比例在使用引用。總而言之,引用的資料有大幅度地改善空間,而且依然能夠用來測量品質或影響力。

發現

在此研究中,就如作者之前所研究的,作者檢驗了遺傳史的許多文章,但是改用沒有引用的簡單文章。作者記錄了該特別論文中的獨特想法與論據(fact)。作者並追蹤了在23篇文章當中選出了的13個論據被引用的情形。根據這些論據的歷史,作者讀了許多文章,並且記錄這些論據的功勞分配。

我們用一個論據來描述這個方法:在1936年,R. A. Fisher發表了一篇文章,大意是表示Mendel的資料在統計上「太棒」(too good)了。作者讀的23篇論文都是在Fisher之後發表,其中有八篇提到Mendel「太棒」的這件事情。

表1:23篇中13個使用與引用的想法 (引用自此篇論文)

項目 總共使用次數 有提出來引用 未引用 引用自二次文獻 有提出來引用比例
I 12 1 8 3 0.08
II 8 6 1 1 0.75
III 11 4 3 4 0.36
IV 10 2 6 2 0.20
V 8 7 1 0 0.88
VI 7 0 5 2 0
VII 9 0 7 2 0
VIII 7 4 2 1 0.57
IX 6 1 3 2 0.17
X 8 6 1 1 0.75
XI 2 0 1 1 0
XII 4 3 0 1 0.75
XIII 1 0 0 21 0
總數 93 34 38 22
比例 37 41

表1總結了作者研究結果。在23篇論文中,13個論據使用了93次。在這之中,有34次(37%)其實是有正確地說明是引用,38次(41%)則沒有,21次(22%)則來自於二次文獻(引用A的話,但是A卻是引用B的話,實際上正確應該要引用B的話才對)。

讓作者感興趣的地方就在這邊:功勞分配與實際影響並不成比例。有些就算不被當作引用或引用到其他人的影響,卻幾乎一再被糾正。在列表第五項裡面,之前提到的Fisher的Mendel(孟德爾的適者生存)結果「太棒」,在八篇文章就有7次正確的引用(然而這些文章應該直接引用孟德爾的研究才對,而不是引用別人對孟德爾的評論)。從另一個方面來看,我們發現R. C. Punett的文章(表1中的第一項),他在他的Untersuchsungen sur Bestimmung des Werthes van Species und Varietat中用Mendel的研究發現了Germann Hoffmann,這個論據在12次提及當中只有1篇引用,其他11篇引用他的作者都沒有給予他應有的功勞。

如果把這個發現在引用分析裡面找個術語來看,作者認為「閉塞(obliteration)」在科學中的用法並不統一。本篇中記錄了三種模式:(1) 有些研究被拿來使用,但從沒被引用或很少被引用;(2) 有些研究主要只引用二次文獻;(3) 有些研究每次被人家使用時都會被註明引用。這些模式的原因還不明確,但這似乎跟發表時間或研究領域相關不大。

討論

許多作者已經討論過用引用數量來衡量科學生產力這件事情,即使引用分配非常不平衡,此偏差現象現在還大於用文章數量來衡量生產力。這件事情已經被從多方面去探討,但其中最普遍的認知還是使用者對於科學文獻的認識並不平衡。在作者的研究中,雖然證實某些學科引用數量是高度扭曲,但是並不代表其他都是這種情況。換個方向來看,比起只考慮被引用的影響,如果所有的影響都考慮進去,那麼這些扭曲的情況到底會多麼嚴重呢?有些人的研究幾乎在每次被用到的時候都會被註明引用,這只會輕微地提升他們的被引用率,而其他研究卻會大量地提升被引用率。舉例來說,現成的例子中作者發現Fisher的研究最常被引用(7次)。如果從引用量來看,他在樣本當中是最距影響力的文章,但就實際使用來看,計算比8次引用數量還多的論據,超過一半以上的文章影響力都還比他來得高。

雖然作者不能從這些發現中推論到其他學科與學術,但還是可以明確地知道任何想用引用數來衡量學術研究品質或影響力、建立認知血統、繪製科學網路或專長的主題領域最後都會演變成讓人難以忍受的錯誤。此外,作者之前驗證過的幾個領域,包括社會學、人類學與生物學,看起來都可以用於引用數量扭曲的發現上。

儘管引用的扭曲使用並不代表大環境(機構或國家)也是扭曲的,但如果繼續使用引用資料,那就應該警惕到這個事實。


這篇論文指出了一個讓人難過的事實,時常被學術評鑑拿來做為參考的Impact Factor(影響指數),事實上就是這樣的不明確。每個作者對於引用的認知都不一樣,引用的數量、偏向都不相同,最後變成了引用資料的不確定性。

蔡老師在上資訊計量學的時候,時常跟我們感嘆這個無奈的事實,卻也不知道現階段該怎麼解決。如果這個扭曲的事實能讓更多學術界的人知道的話,應該總有一天,會有更好的評鑑方法出現吧。

(more...)

諾貝爾獎有哪幾個獎項?

布丁布丁吃布丁

諾貝爾獎有哪幾個獎項?

諾貝爾獎(The Nobel Prize Medals)共分成物理(Physics)、化學(Chemistry)、心理學生理學(感謝anmut指正)或醫學(Physiology or Medicine)、文學(Literature)、和平(Peace)與經濟(Economics)六個獎項。

諾貝爾物理獎:第一屆物理獎得主是Wilhelm Röntgen對於X光的發現。最近幾年,諾貝爾物理獎頒發給先驅研究與開創性發明。

諾貝爾化學獎:第一屆化學獎得主是Jacobus H. van't Hoff,表揚他在反應速率(rates of reaction)、化學平衡(chemical equilibrium)以及滲透壓力(osmotic pressure)的卓越研究。最近幾年,諾貝爾化學獎提升了我們對於化學處理與分子基礎的知識,也對於今日科技進步有許多貢獻。

諾貝爾生理學與醫學獎:在1901年,Emil von Behring對於血清治療(serum therapy),特別適用於治療白喉(diphtheria)的貢獻,使他獲得第一屆諾貝爾生理學與醫學獎。之後的生理學與醫學獎強調於青黴素(penicillin)、基因工程(genetic engineering)與血型(blood-tyle)的發明。

諾貝爾文學獎:1901年第一屆諾貝爾文學獎得主是法國詩人與哲學家Sully Prudomme,他在詩中呈現了「兼具心靈與智慧兩者品質的稀少結合」。倭年以來,諾貝爾文學獎表揚了各種不同語言與文化背景的作品。這個獎項也頒給佚名作者,就跟世界各地的著名作家一樣。

諾貝爾和平獎:Henry Dunant,紅十字會(Red Cross)的創始者,跟當時領導國際和平組織的Frédéric Passy共享1901年第一屆的諾貝爾和平獎。除了人道主義(humanitarian efforts)與和平運動(peace movements)之外,諾貝爾和平獎也頒給各種領域的貢獻,包括人權、調解國際衝突以及軍備管制。

諾貝爾經濟獎:在1968年瑞士的中央銀行Sveriges Riksbank成立此獎項以紀念諾貝爾獎創始人之一的Alfred Nobel。1969年第一屆經濟獎得主是Ragnar Frisch以及Jan Tinbergen。

資料來源:


這篇是來自於蔡明月老師在授課時指定的小作業。當授課教材中提到一些有趣的題目時,老師會希望學生去找相關資料來看。像這次的問題就如標題:「諾貝爾獎有哪幾個獎項?」有些知識蠻實用也頗有趣的,反正這個Blog也是希望把這些有用的知識傳播出去,所以就擺上來給大家看看吧。

感謝anmut指正,是生理學(Physiology)而不是心理學(Psychology)XD

(more...)

yam天空影音分享下載器原始碼

布丁布丁吃布丁

yam天空影音分享下載器原始碼

透過yam天空影音分享提供的API,我寫了一個分析網址的PHP程式,可以抓出音樂&影片的真正位置,順便把標題名字也抓出來。

這支PHP程式需要搭配伺服器運作,原始碼如下,請大家多多指教。

<?php
/*
============使用注意事項============
如果不能分析
請設定php.ini的allow_url_fopen = On
==================================
*/

if ($_GET["sourcecode"] == "true")
{
      header("Content-Type: text/plain; charset=utf-8; name=\"yam-video-download.php\"");
    echo $file_file = file_get_contents("yam-video-download.php");
    exit();
}

if (isset($_GET["url"]))  //如果沒有參數,表示是初始化
{
  $url_source = $_GET["url"];  //來源位址
  
  if (strpos($url_source, "/", 0) != false)  //如果是http://mymedia.blog.yam.com/m/2077502,轉成2077502
  {
    $url_source = substr($url_source, strrpos($url_source, "/") + 1);
  }

  //取得該頁面的標題
  $url_title = "http://mymedia.blog.yam.com/m/".$url_source;
  $title_file = file_get_contents($url_title);
  
  //start with <h1 class="heading"> +
    $start = '<h1 class="heading">';
  $title_start = strpos($title_file, $start) + strlen($start);
  //end with </h1>
    $end = '</h1>';
  $title_length = strpos($title_file, $end, $tite_start) - $title_start;
  
  $title = substr($title_file, $title_start, $title_length);
  
  //取得mp3的位置
  $url_file = "http://mymedia.yam.com/api/a/?pID=".$url_source;
  $file_file = file_get_contents($url_file);
  if (strpos($file_file, 'mp3file=') === 0)
  {
    //start with mp3file=
      $start = 'mp3file=';
    $file_start = strpos($file_file, $start) + strlen($start);
    //end with &totaltime=
      $end = '&totaltime=';
    $file_length = strpos($file_file, $end, $file_start) - $file_start;
    
    $file = substr($file_file, $file_start, $file_length);
  }
  else
  {
    //start with &furl=
      $start = '&furl=';
    $file_start = strpos($file_file, $start) + strlen($start);
    //end with &hidecode=
      $end = '&hidecode=';
    $file_length = strpos($file_file, $end, $file_start) - $file_start;
    
    $file = substr($file_file, $file_start, $file_length);
  }
  //加上副檔名    
  $filename_sub = substr($file, strrpos($file, ".") + 1);
  $title = $title.".".$filename_sub;

}  //end if
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>yam天空部落-影音分享下載器</title>
</head>

<body>
<?php
if (isset($file))
{
  ?>
  檔名:<input type="text" style="width: <?php echo strlen($title)/2; ?>em;border-width:0;" onfocus="this.select()" value="<?php echo $title ?>" /><br />
  <a href="<?php echo $file; ?>">下載位置</a>
  <hr style="display:block;" />
  <?php
}
?>
<label for="source">請輸入yam天空部落-影音分享的網址或編號:(以http://mymedia.blog.yam.com/m/或http://mymedia.yam.com/m/開頭)</label><br /><input id="source" type="text" onchange="download_link(this.value)" value="" onfocus="this.select();" style="width: 300px;" /><input type="button" onclick="download_link(document.getElementById('source').value)" value="確認" /><span id="msg"></span>
<a href="" id="download" style="display:none;">開始分析</a>
<script type="text/javascript">
function download_link(source)
{
  var keyword = "http://mymedia.blog.yam.com/m/";
  var keyword2 = "http://mymedia.yam.com/m/";
  document.getElementById("download").style.display = "none";
  if (source == "")
  {
    msg_show("");
  document.getElementById("source").value = keyword2;
  return;
  }
  else if (source.substr(0, keyword.length) != keyword && source.substr(0, keyword2.length) != keyword2)
  {
    msg_show("請輸入以\""+keyword2+"\"的網址");
  }
  else if ((source.substr(0, keyword.length) == keyword && source.length == keyword.length)
  || (source.substr(0, keyword2.length) == keyword2 && source.length == keyword2.length))
  {
    msg_show("請輸入影音分享的編號");
  }
  else
  {
    msg_show("");
  document.getElementById("download").href = "?url="+source;
  document.getElementById("download").style.display = "inline";
  }

}
function msg_show(msg)
{
  document.getElementById("msg").innerHTML = msg;
}
</script>
<hr />
<a href="?sourcecode=true">下載本程式原始碼</a>
</body>
</html>

※20080508更新:允許網址是以http://mymedia.yam.com/m/開頭

(more...)

統計課本的公式,期刊論文的公式

統計課本的公式,期刊論文的公式

上式是資訊計量學三大定律當中的齊夫定律(Zipf's law),式中C為一常數;fr為較長文章中每個詞出現的頻率;r為與fr相對應的賦予詞的序號。

~引用自馬悅英,分形論在情報學中的應用,圖書情報工作,1998年第5期。


今天剛考完統計,範圍是敘述統計的部份,也就是平均數、變異數、標準差、機率以及常態分配。題目不難,公式也很好理解。

考完試的下午我繼續讀資訊計量學要看的「分形論在情報學中的應用」,短短三頁,但是卻有著11個公式,而且每一個都看不太懂。

翻翻蔡明月老師所著的「資訊計量學與文獻特性」,回想一下老師上課時公式講解,似乎自己都能夠理解。但是為什麼讀這期刊論文時,卻覺得這公式怎麼這麼難懂呢?

更甚者,光是看公式就看不懂了,那以後要怎麼寫出這些公式呢?未來真是讓人擔憂啊。

(more...)

大圖盃與布萊德福定律

布丁布丁吃布丁

大圖盃與布萊德福定律

根據排球場上選手碰觸到排球次數的多寡,依遞減次序排列,這些選手將可分為一個核心區(第一區)及接連的數區,且每一區包含大約相同的文獻篇數,則各區選手人數的比例將呈現1:n:n2......的關係,其中n大約是5。

以上說明只是在加油的時候想到的,其實要說的是:

恭賀政大圖檔所奪得第33屆大圖盃運動會男子排球賽季軍

選手之夜的時候,以前輔大的學姊發現我是五年以來第一次參加大圖盃,問我有沒有覺得很棒。雖然還不到感動到流淚的地步,不過也覺得人生的視野好像又擴大了一些。

我參加了桌球混雙,其他就是來喊加油。對我來說,球場是一個很不熟悉的場所。在我這個不懂規則的人的眼中,球員、裁判、旁邊加油打氣的人,都做著許多似乎已經約定成俗的規律動作。我一邊看著、一邊學著怎麼做,既然來到球場了,那就學著當裡面的一份子吧。(雖然打牌好像不是球場該出現的行為啊......)

(more...)

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

布丁布丁吃布丁

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW
Bookstein, Abraham. Scientometrics. 30(1):353-361, May 1994.

Bradford定律可以具有實務與理論價值。在應用上,可以指引圖書館館藏發展需要增減哪些文獻。而在理論上的衝擊則是更重要且有趣,。
Bradford定律在多學科中有以下多種方式:

  1. 經過布拉德佛型態分析的期刊通常是多領域的。單一領域的布拉德佛分析將各種期刊切片(slice),而且據觀察,如果有另一種切片在同一種期刊裡面產生,布拉德佛規律將會再次發生,但是是描述不同領域。
  2. 定義主題領域具有某種程度上的獨斷性(arbitrary),而且包括整合更多已定義的領域。
  3. 簡單的單一領域版本必須在某種程度上浮現主題之間非常動態複雜的互動。除非我們研究多領域基礎的形成,否則我們不能理解單一領域的布拉德佛規律。
  4. 最有用的是,我們必須用上所有領域來評鑑期刊的價值。

這篇論文有幾個目標。最重要的是強調用多領域的觀點處理文章發散,並且看到傳統布拉佛德型態規律在多規律領域中描述單一規律碎片。而且,我們試圖定義描述與分析多規律發散現象的基礎概念。我們討論從競爭過程中浮現的期刊發表的單一規律模式;為了要指導我們定義基本概念,我們應該創造一種競爭模型,並且研究這些模型裡面需要哪些實體。

期刊評鑑的模型需要有以下指標:

  • 動態:因為文獻一直在增加。
  • 可靠的多領域散佈狀況:能夠帶出正確的分析
  • 抵抗不確定性:資訊計量學規律最重要的特色。

在接下來的段落中,該論文依據以上指標推導了一連串公式,最終為。t為文章總數,a為可觀察的數量,陣列R則是假設給定的値,跟之公式推導中的領域F相關。

結論則是探討公式模型參數之間的變化,然後假設情況套入公式模型檢驗是否可行。然後提到使模型更為精細需要更多隨機資料。但是作者相信這個簡單的模型已經能夠展現期刊出版關鍵的特性。

(more...)

期刊論文的作者合作度與合作作者的自引分析

布丁布丁吃布丁

期刊論文的作者合作度與合作作者的自引分析

期刊論文的作者合作度與合作作者的自引分析
蔣穎、金碧輝、劉筱敏,圖書情報工作,2000年第12期,23-28頁。

本篇作者用統計的方法來分析期刊論文的作者合作程度,再統計合作作者的自引數量,推測合作作者群當中對於一篇文章的貢獻程度。統計資料來源是「中國科學引文資料庫」在1989年和1998年兩個時期,比較9年差別的變化,並考慮了資料庫收錄期刊數量的增加。合作度比較了12種學科,接著更進一步比較數學、物理、醫學這3個有代表性學科的數據來做細部分析。

期刊論文的作者合作度,是以「人」為單位為,一篇論文有幾個作者就稱該文的作者合作度為幾人。

  • 9年間合作規模有明顯地擴大,合作形式成為科學研究的主流。

  • 依據學科性質的不同而會合作程度也不盡相同,理論性越強的學科合作度越低;實驗性越強的學科合作度越高;介於理論與實踐之間的學科,其合作度為中等。因此作者建議在研究相關問題時,最好能根據學科性質區別對待。

作者自引的定義為文章作者引用自己的其他文獻的行為。然而在合作現象當中,如果一位作者引用了一篇他自己並非為第一作者的文獻,也應算做自引一次。但由於資料庫只有收錄被引用文獻的第一作者,所以在此文章中各種自引數都不包括這一部份。

研究結果顯示:

  • 9年間論文作者整體自引量有大幅度的提高。

  • 合著情況下,各作者在文章中的排序與個人自引百分比總體狀況是相反,第一作者的自引百分比遠高於其他作者。

  • 合著中存在著「臨界合作度」,當合作度小於臨界值時,第一作者的自引白分比隨著合作規模的增加而降低;反之當合作度大於臨界值時,第一作者個人自引百分比呈上升趨勢,這說明合作規模達到一定程度之後,合作研究中的分工方式發生變化。

本文認為作者的自引百分比近似於作者的名譽分配比例,就本文分析結果來看,可以按照該比例分配作者的權重。一般來說,作者的自引數會按照文章中排名順序遞減,但是從各學科來看,最後一個作者的自引數比常常高於前面幾個的作者。這可能與最後一個作者經常是研究的組織者、指導者有關。

(more...)

Automated user modeling for personalized digital libraries

布丁布丁吃布丁

Automated user modeling for personalized digital libraries

Automated user modeling for personalized digital libraries E. Frias-Martinez, G. Magoulas, S. Chen, R. Macredie International Journal of Information Management 26 (2006) 234-248

數位圖書館(Digital Libraries, DLs)已經變成取用數位化資訊最普遍的方式。因此,使用者歡迎任何改進數位圖書館的方法。其中一種服務就是從個人化(personalization)著手。到目前為止,數位圖書館常見的個人化服務依然是以使用者自行設定為主。儘管如此,為了要發展出高效率的個人化服務,現在可以加入自動化的方法。在這種情況下,機器學習技術(machine learning techniques)可以自動建立使用者模型(user model)。該論文提出了一種可以滿足使用者對資訊需求的新方法來設計數位圖書館:自動適應數位圖書館(Adaptive DLs),系統將會自動學習使用者的偏好設定與目的,並依此提供個人化的互動使用經歷。

該論文最重要的地方是提出了數位圖書館使用者模型的九個面向:個人資訊、認知型態(cognitive style)、設備、情境、歷史記錄、興趣、目的、系統使用經驗、領域專業知識。然後介紹相關的機器學習技術,建議用哪幾種方式來建立使用者模型,並帶出相關的研究,供讀者可以繼續延伸閱讀。

(more...)