:::

yam天空影音分享下載器原始碼

布丁布丁吃布丁

yam天空影音分享下載器原始碼

透過yam天空影音分享提供的API,我寫了一個分析網址的PHP程式,可以抓出音樂&影片的真正位置,順便把標題名字也抓出來。

這支PHP程式需要搭配伺服器運作,原始碼如下,請大家多多指教。

<?php
/*
============使用注意事項============
如果不能分析
請設定php.ini的allow_url_fopen = On
==================================
*/

if ($_GET["sourcecode"] == "true")
{
      header("Content-Type: text/plain; charset=utf-8; name=\"yam-video-download.php\"");
    echo $file_file = file_get_contents("yam-video-download.php");
    exit();
}

if (isset($_GET["url"]))  //如果沒有參數,表示是初始化
{
  $url_source = $_GET["url"];  //來源位址
  
  if (strpos($url_source, "/", 0) != false)  //如果是http://mymedia.blog.yam.com/m/2077502,轉成2077502
  {
    $url_source = substr($url_source, strrpos($url_source, "/") + 1);
  }

  //取得該頁面的標題
  $url_title = "http://mymedia.blog.yam.com/m/".$url_source;
  $title_file = file_get_contents($url_title);
  
  //start with <h1 class="heading"> +
    $start = '<h1 class="heading">';
  $title_start = strpos($title_file, $start) + strlen($start);
  //end with </h1>
    $end = '</h1>';
  $title_length = strpos($title_file, $end, $tite_start) - $title_start;
  
  $title = substr($title_file, $title_start, $title_length);
  
  //取得mp3的位置
  $url_file = "http://mymedia.yam.com/api/a/?pID=".$url_source;
  $file_file = file_get_contents($url_file);
  if (strpos($file_file, 'mp3file=') === 0)
  {
    //start with mp3file=
      $start = 'mp3file=';
    $file_start = strpos($file_file, $start) + strlen($start);
    //end with &totaltime=
      $end = '&totaltime=';
    $file_length = strpos($file_file, $end, $file_start) - $file_start;
    
    $file = substr($file_file, $file_start, $file_length);
  }
  else
  {
    //start with &furl=
      $start = '&furl=';
    $file_start = strpos($file_file, $start) + strlen($start);
    //end with &hidecode=
      $end = '&hidecode=';
    $file_length = strpos($file_file, $end, $file_start) - $file_start;
    
    $file = substr($file_file, $file_start, $file_length);
  }
  //加上副檔名    
  $filename_sub = substr($file, strrpos($file, ".") + 1);
  $title = $title.".".$filename_sub;

}  //end if
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>yam天空部落-影音分享下載器</title>
</head>

<body>
<?php
if (isset($file))
{
  ?>
  檔名:<input type="text" style="width: <?php echo strlen($title)/2; ?>em;border-width:0;" onfocus="this.select()" value="<?php echo $title ?>" /><br />
  <a href="<?php echo $file; ?>">下載位置</a>
  <hr style="display:block;" />
  <?php
}
?>
<label for="source">請輸入yam天空部落-影音分享的網址或編號:(以http://mymedia.blog.yam.com/m/或http://mymedia.yam.com/m/開頭)</label><br /><input id="source" type="text" onchange="download_link(this.value)" value="" onfocus="this.select();" style="width: 300px;" /><input type="button" onclick="download_link(document.getElementById('source').value)" value="確認" /><span id="msg"></span>
<a href="" id="download" style="display:none;">開始分析</a>
<script type="text/javascript">
function download_link(source)
{
  var keyword = "http://mymedia.blog.yam.com/m/";
  var keyword2 = "http://mymedia.yam.com/m/";
  document.getElementById("download").style.display = "none";
  if (source == "")
  {
    msg_show("");
  document.getElementById("source").value = keyword2;
  return;
  }
  else if (source.substr(0, keyword.length) != keyword && source.substr(0, keyword2.length) != keyword2)
  {
    msg_show("請輸入以\""+keyword2+"\"的網址");
  }
  else if ((source.substr(0, keyword.length) == keyword && source.length == keyword.length)
  || (source.substr(0, keyword2.length) == keyword2 && source.length == keyword2.length))
  {
    msg_show("請輸入影音分享的編號");
  }
  else
  {
    msg_show("");
  document.getElementById("download").href = "?url="+source;
  document.getElementById("download").style.display = "inline";
  }

}
function msg_show(msg)
{
  document.getElementById("msg").innerHTML = msg;
}
</script>
<hr />
<a href="?sourcecode=true">下載本程式原始碼</a>
</body>
</html>

※20080508更新:允許網址是以http://mymedia.yam.com/m/開頭

(more...)

統計課本的公式,期刊論文的公式

統計課本的公式,期刊論文的公式

上式是資訊計量學三大定律當中的齊夫定律(Zipf's law),式中C為一常數;fr為較長文章中每個詞出現的頻率;r為與fr相對應的賦予詞的序號。

~引用自馬悅英,分形論在情報學中的應用,圖書情報工作,1998年第5期。


今天剛考完統計,範圍是敘述統計的部份,也就是平均數、變異數、標準差、機率以及常態分配。題目不難,公式也很好理解。

考完試的下午我繼續讀資訊計量學要看的「分形論在情報學中的應用」,短短三頁,但是卻有著11個公式,而且每一個都看不太懂。

翻翻蔡明月老師所著的「資訊計量學與文獻特性」,回想一下老師上課時公式講解,似乎自己都能夠理解。但是為什麼讀這期刊論文時,卻覺得這公式怎麼這麼難懂呢?

更甚者,光是看公式就看不懂了,那以後要怎麼寫出這些公式呢?未來真是讓人擔憂啊。

(more...)

大圖盃與布萊德福定律

布丁布丁吃布丁

大圖盃與布萊德福定律

根據排球場上選手碰觸到排球次數的多寡,依遞減次序排列,這些選手將可分為一個核心區(第一區)及接連的數區,且每一區包含大約相同的文獻篇數,則各區選手人數的比例將呈現1:n:n2......的關係,其中n大約是5。

以上說明只是在加油的時候想到的,其實要說的是:

恭賀政大圖檔所奪得第33屆大圖盃運動會男子排球賽季軍

選手之夜的時候,以前輔大的學姊發現我是五年以來第一次參加大圖盃,問我有沒有覺得很棒。雖然還不到感動到流淚的地步,不過也覺得人生的視野好像又擴大了一些。

我參加了桌球混雙,其他就是來喊加油。對我來說,球場是一個很不熟悉的場所。在我這個不懂規則的人的眼中,球員、裁判、旁邊加油打氣的人,都做著許多似乎已經約定成俗的規律動作。我一邊看著、一邊學著怎麼做,既然來到球場了,那就學著當裡面的一份子吧。(雖然打牌好像不是球場該出現的行為啊......)

(more...)

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

布丁布丁吃布丁

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW

TOWARDS A MULTI-DISCIPLINARY BRADFORD LAW
Bookstein, Abraham. Scientometrics. 30(1):353-361, May 1994.

Bradford定律可以具有實務與理論價值。在應用上,可以指引圖書館館藏發展需要增減哪些文獻。而在理論上的衝擊則是更重要且有趣,。
Bradford定律在多學科中有以下多種方式:

  1. 經過布拉德佛型態分析的期刊通常是多領域的。單一領域的布拉德佛分析將各種期刊切片(slice),而且據觀察,如果有另一種切片在同一種期刊裡面產生,布拉德佛規律將會再次發生,但是是描述不同領域。
  2. 定義主題領域具有某種程度上的獨斷性(arbitrary),而且包括整合更多已定義的領域。
  3. 簡單的單一領域版本必須在某種程度上浮現主題之間非常動態複雜的互動。除非我們研究多領域基礎的形成,否則我們不能理解單一領域的布拉德佛規律。
  4. 最有用的是,我們必須用上所有領域來評鑑期刊的價值。

這篇論文有幾個目標。最重要的是強調用多領域的觀點處理文章發散,並且看到傳統布拉佛德型態規律在多規律領域中描述單一規律碎片。而且,我們試圖定義描述與分析多規律發散現象的基礎概念。我們討論從競爭過程中浮現的期刊發表的單一規律模式;為了要指導我們定義基本概念,我們應該創造一種競爭模型,並且研究這些模型裡面需要哪些實體。

期刊評鑑的模型需要有以下指標:

  • 動態:因為文獻一直在增加。
  • 可靠的多領域散佈狀況:能夠帶出正確的分析
  • 抵抗不確定性:資訊計量學規律最重要的特色。

在接下來的段落中,該論文依據以上指標推導了一連串公式,最終為。t為文章總數,a為可觀察的數量,陣列R則是假設給定的値,跟之公式推導中的領域F相關。

結論則是探討公式模型參數之間的變化,然後假設情況套入公式模型檢驗是否可行。然後提到使模型更為精細需要更多隨機資料。但是作者相信這個簡單的模型已經能夠展現期刊出版關鍵的特性。

(more...)

期刊論文的作者合作度與合作作者的自引分析

布丁布丁吃布丁

期刊論文的作者合作度與合作作者的自引分析

期刊論文的作者合作度與合作作者的自引分析
蔣穎、金碧輝、劉筱敏,圖書情報工作,2000年第12期,23-28頁。

本篇作者用統計的方法來分析期刊論文的作者合作程度,再統計合作作者的自引數量,推測合作作者群當中對於一篇文章的貢獻程度。統計資料來源是「中國科學引文資料庫」在1989年和1998年兩個時期,比較9年差別的變化,並考慮了資料庫收錄期刊數量的增加。合作度比較了12種學科,接著更進一步比較數學、物理、醫學這3個有代表性學科的數據來做細部分析。

期刊論文的作者合作度,是以「人」為單位為,一篇論文有幾個作者就稱該文的作者合作度為幾人。

  • 9年間合作規模有明顯地擴大,合作形式成為科學研究的主流。

  • 依據學科性質的不同而會合作程度也不盡相同,理論性越強的學科合作度越低;實驗性越強的學科合作度越高;介於理論與實踐之間的學科,其合作度為中等。因此作者建議在研究相關問題時,最好能根據學科性質區別對待。

作者自引的定義為文章作者引用自己的其他文獻的行為。然而在合作現象當中,如果一位作者引用了一篇他自己並非為第一作者的文獻,也應算做自引一次。但由於資料庫只有收錄被引用文獻的第一作者,所以在此文章中各種自引數都不包括這一部份。

研究結果顯示:

  • 9年間論文作者整體自引量有大幅度的提高。

  • 合著情況下,各作者在文章中的排序與個人自引百分比總體狀況是相反,第一作者的自引百分比遠高於其他作者。

  • 合著中存在著「臨界合作度」,當合作度小於臨界值時,第一作者的自引白分比隨著合作規模的增加而降低;反之當合作度大於臨界值時,第一作者個人自引百分比呈上升趨勢,這說明合作規模達到一定程度之後,合作研究中的分工方式發生變化。

本文認為作者的自引百分比近似於作者的名譽分配比例,就本文分析結果來看,可以按照該比例分配作者的權重。一般來說,作者的自引數會按照文章中排名順序遞減,但是從各學科來看,最後一個作者的自引數比常常高於前面幾個的作者。這可能與最後一個作者經常是研究的組織者、指導者有關。

(more...)

Automated user modeling for personalized digital libraries

布丁布丁吃布丁

Automated user modeling for personalized digital libraries

Automated user modeling for personalized digital libraries E. Frias-Martinez, G. Magoulas, S. Chen, R. Macredie International Journal of Information Management 26 (2006) 234-248

數位圖書館(Digital Libraries, DLs)已經變成取用數位化資訊最普遍的方式。因此,使用者歡迎任何改進數位圖書館的方法。其中一種服務就是從個人化(personalization)著手。到目前為止,數位圖書館常見的個人化服務依然是以使用者自行設定為主。儘管如此,為了要發展出高效率的個人化服務,現在可以加入自動化的方法。在這種情況下,機器學習技術(machine learning techniques)可以自動建立使用者模型(user model)。該論文提出了一種可以滿足使用者對資訊需求的新方法來設計數位圖書館:自動適應數位圖書館(Adaptive DLs),系統將會自動學習使用者的偏好設定與目的,並依此提供個人化的互動使用經歷。

該論文最重要的地方是提出了數位圖書館使用者模型的九個面向:個人資訊、認知型態(cognitive style)、設備、情境、歷史記錄、興趣、目的、系統使用經驗、領域專業知識。然後介紹相關的機器學習技術,建議用哪幾種方式來建立使用者模型,並帶出相關的研究,供讀者可以繼續延伸閱讀。

(more...)

meeting之後的討論

布丁布丁吃布丁

meeting之後的討論

今天meeting只有三個人報告,最後我報的paper連自己都快要不知道自己在說些什麼,接著老師講些想到的題目,然後聊起了其他話題,不過大多數之前都聽過。meeting在三個小時之內結束,算是蠻快的了。

收拾東西的時候,聽到學長姐在討論最近研究上的瓶頸。大意是要拿未知詞彙跟兩萬多筆資料計算相似度,花費時間過長,該怎麼改善。大家一邊思考、一邊提意見、畫黑板,討論這個點子的可行性。最後想出了一個兼具精準度與速度的折衷方法,大家鼓掌叫好。

就是這種氣氛,讓我願意每個禮拜都來團體meeting吧。

(more...)