:::

DSpace的PostgreSQL資料庫架構與操作

布丁布丁吃布丁

DSpace的PostgreSQL資料庫架構與操作

前言

PostgreSQL是個專業但卻免費開放原始碼的資料,選擇他做為DSpace的資料庫是很穩定的。即使由於它過於複雜的架構讓我們沒辦法把它像MySQL這樣地簡單操作,在本文件當中我們依然要求你具備關聯式資料庫的概念,並且熟知SQL語法的操作。特別是SQL語法,這是所有資料庫的共通語言,所以一定要知道。
PostgreSQL有pdAdmin III資料庫管理介面可供使用,GUI圖形化且中文的操作介面也容易使用。但是在DSpace裡面操作資料庫的時候,除了要知道怎麼看JAVA程式來操作物件,還會使用到SQL指令。看完本文件,希望讓你對於操作PostgreSQL有個概念。

第一章 PostgreSQL簡介

PostgreSQL 是由散佈在全球的數百名開發者(包含非營利組織團體,學術研究機構及國際企業體)志願貢獻與共同開發的專案成果,歷今22年來持續發展。長久以來被用於要 求極端嚴謹的商業應用/科學研究環境及政府組織中。PostgreSQL 為 BSD 版權協議發佈,允許您在商業或非商業應用的兩種環境下均能享有自由取得且不受限制的使用權。PostgreSQL 具有高度擴展性,且完整遵從國際 ISO-SQL 規範的開發方向,是當前全球最先進的開放源始碼(OSS)的物件關聯型資料庫管理系統(ORDBMS)。更詳細的介紹可以參考PostgreSQL ::國際中文社群網誌:: http://postgresql-chinese.blogspot.com/

PostgreSQL與其他資料庫類似,使用SQL語言來執行資料的查詢。它的特色在於資料庫的可程式性,對於使用資料庫資料的實際應用,PostgreSQL 讓開發與使用的工作,變得更加容易。

我們在建構DSpace的過程中,只需要透過DSpace的API來操控資料庫,你只需要擁有操控SQL語言的能力即可,不需要深入研究PostgreSQL的功能。由於它的架構十分複雜,我們不建議用SQL或pgAdmin手動新增、刪除或修改資料庫的任何資料或架構,請盡量使用DSpace設計好的物件(object)中的方法(method)來執行。

第二章 PostgreSQL安裝

有些Linux發行版已經內建PostgreSQL,在DSpace的建立過程中,我們使用的CentOS作業系統已經內建,因此我們不需要另外安裝。

如果你想要開放所有的對外連線來查看你的資料庫(ex. pgAdmin),則你需要編輯postgresql.conf (通常會放在/var/lib/pgsql/data或者/usr/local/pgsql/data),並且在Linux之中修改為:

vim postgresql.conf
加入tcpip_socket = true
加入listen_addresses = '*' #限定任何IP皆可連線
vim pg_hba.conf
加入host dspace dspace 127.0.0.1 0.0.0.0 md5

(注意,開放所有對外連線是不安全的,你必須明確的了解你做什麼事情。)

第三章 DSpace資料庫架構說明

透過pgAdmin III可以看到DSpace整個架構。pgAdmin III詳細的操作方法在稍後章節會提到。

以下是DSpace在安裝的過程中會自動建立的表格架構,由於PostgreSQL本身架構太過複雜,與其撰寫把完整的資料庫架構細節寫上來,不如請直接參考輸出的備份檔。在此我將各表格與各欄位的用處及注意事項寫下來,未確認的表格與欄位,註釋則是空白。灰色背景表示是表格名稱與註釋,白色背景表示是該表格底下的欄位名稱與註釋。

第四章 透過pgAdmin操作資料庫

第一節 pdAdmin簡介

pgAdmin III是一個針對PostgreSQL的通用並且具有豐富特性的開放源碼管理和開發工具,可以用在Linux、FreeBSD、Solaris、Mac OSX和Windows平臺上管理運行於任何平臺的PostgreSQL 7.3以及更高級的版本,也包括商業版本例如EnterpriseDB、Mammoth PostgreSQL、Bizgres 和 Greenplum database。詳細網址是http://www.pgadmin.org/index.php?lang=zh_CN,目前最新的版本是pgAdmin III 1.8.1版本(2008年1月23日),適用於Windows平台的pgAdmin III下載位置在http://www.pgadmin.org/download/windows.php,左方可以選擇其他的平台。

第二節 新伺服器登錄

安裝完pgAdminIII並開啟之後,首先你要做的便是將DSpace的連線資料登錄,以便之後的連線。欄位的填寫資料可以參考上圖,但要確定你的PostgreSQL是否有開啟TCP/IP連線,並且允許任何IP連線管理。

第三節 pgAdminIII操作環境簡介

PostgreSQL是有嚴謹架構的資料庫,而pdAdminIII也提供了相當完整且複雜的功能。在此我僅介紹管理DSpace時可能會使用的操作部分。

查詢資料庫中的資料表

如上圖的路徑中,可以找到DSpace所有的資料表。

查詢資料表當中的欄位

資料表可繼續往下打開,即可看到該資料表的所有欄位資料。

查詢資料表當中的資料列

資料表按右鍵,選擇「檢視資料」,當中有

  • 「檢視頂部100筆資料列」:最前面100筆資料的意
  • 「檢視全部資料列」:注意,檢視的資料量過大將會導致伺服器負荷過大,不建議開啟此項
  • 「檢視已篩選資料列」:以where的條件來篩選資料。但也要注意是否篩選結果資料量會過大的問題

直接輸入SQL指令

點選主視窗的SQL查詢工具,可使用此工具快速測試你的SQL語法。如上圖所示,上方是輸入SQL的地方,下方則是輸出的結果處,但不能像「檢視資料」這樣直接修改。除了select查詢之外,你也可以使用update、delete等其他指令,而下方結果輸出處會顯示有幾筆欄位受到影響。

第五章 透過DSpace的API來操作資料庫

DSpace大部分的物件使用方式,你都可以在原始安裝檔的src目錄下找到。其中src/org/dspace/content目錄裡面皆擺放著常用的物件及方法,例如你要操作item的話,那麼可以查詢src/org/dspace/content/Item.java。當然,要記得在文件開頭import檔案。

詳細的物件使用方法我想再另外一個Dspace操作手冊裡面說明,在此就省略。

然而,Dspace提供的物件並不能滿足設計所需,有時候我們仍需要以純粹的SQL語法來進行查詢。src/org/dspace/storage/rdbms中的DatabaseManager.java、TableRow.java跟TableRowIterator.java裡面的物件可以幫助你這樣做。以下詳細說明這些物件的操作方式。

  1. 必須在開頭輸入需要的檔案路徑。在JAVA跟JSP的輸入方法不同,看你要在哪邊操作資料庫。
    JAVA:
    import org.dspace.storage.rdbms.DatabaseManager;
    import org.dspace.storage.rdbms.TableRow;
    import org.dspace.storage.rdbms.TableRowIterator;
    JSP:
    <%@ page import="org.dspace.storage.rdbms.DatabaseManager" %>
    <%@ page import="org.dspace.storage.rdbms.TableRow" %>
    <%@ page import="org.dspace.storage.rdbms.TableRowIterator" %>
  2. Context context = new Context(); //context是DSpace定義的情境,如果你之前的文件裡面沒有context的話,那麼請用此方法建立一個空的context。當然,要記得在開頭import檔案。

  3. TableRow row = DatabaseManager.querySingle(context, "select * from collection"); //querySingle第二個參數是sql語法

  4. String temp = row.getStringColumn("name"); //這樣就能取得第一列的name欄位的值。再執行一次則是取得下一列,依此類推。

DatabaseManager.java中的操作方法有很多種,除了查詢之外也有刪除(delete)、更新(update),也有搜尋或新增等方法,相當地實用,請務必好好讀過一遍。

第六章 透過JDBC連接操作資料庫

JAVA程式語言本身也有提供連接資料庫的應用介面,Java Database Connectivity,簡稱JDBC。開始之前必須再次,DSpace的API具有錯誤回報與紀錄log的功能,而且似乎較不會使系統出現問題,建議不要使用原始的JDBC進行連線。由於早期尚未熟悉DSpace的API前,我先使用了JDBC的方式,導致現在系統時常因為資料庫連線而無法回應,並不是好事。

要使用的JDBC API包裝在java.sql(之後的延伸版本則是擺在javax.sql)之中,因此在使用之前必須要import這個檔案:

JAVA:

import java.sql.*

JSP:

<%@ page import="java.sql.*" %>

接著是與資料庫進行連線。注意以下來自於ConfigurationManager的三個參數,個別代表著資料庫位置、帳號及密碼,這是使用Dspace內建的ConfigurationManger來取得與Dspace同樣設定的方法。當然,要記得import:

Class.forName("org.postgresql.Driver").newInstance();
String db_url = ConfigurationManager.getProperty("db.url");
String db_user= ConfigurationManager.getProperty("db.username");
String db_password= ConfigurationManager.getProperty("db.password");
Connection conn= DriverManager.getConnection(db_url,db_user,db_password);
Statement stmt=conn.createStatement(ResultSet.TYPE_SCROLL_SENSITIVE,ResultSet.CONCUR_UPDATABLE);

接著便可以對stmt輸入sql、傳回查詢結果,並且取出。以下是範例,請注意到sql跟rs的類型宣告:

String sql="SELECT * FROM item LIMIT 10 OFFSET 0";
//修改這邊的SQL語法!
ResultSet rs=stmt.executeQuery(sql);
while(rs.next()) {
%><br />
欄位1: <%=rs.getString(1)%>/
欄位2: <%=rs.getString(2)%>/
欄位3: <%=rs.getString(3)%>/
欄位4: <%=rs.getString(4)%>/
<%
}

在while迴圈中,你可以注意到取出rs資料的方法是用getString,而且參數是從1開始而非常見的0。

(more...)

考試懶得做弊

布丁布丁吃布丁

考試懶得做弊

「考試不做畢業,明年當學弟」、「寧願沒人格,不可不及格」這幾句話大家耳熟能詳,考試課業壓力重,看看雙修的學弟妹隨隨便便都在挑戰一學期修30學分,那麼讀書讀不完是家常便飯的事情。

不知道是不是我在文學院的關係,總覺得身邊很少看到作弊的情景,但是偶爾還是會聽到某個同學這次作了弊,作了小抄什麼的事情,不管再怎樣都要臨時抱佛腳(?)一下。

看著他們作弊的事蹟,我就會覺得,他們真拼。

以前看過一部日本電影,叫做「史上最大作弊戰爭」(原來是安室奈美惠的電影處女作),裡面用了各種手法來作弊,甚至看起來比背整晚講義還認真的多。

如果是我的話:「讀多少就寫多少就好啦。」說好聽一點叫做坦然接受自己的能力上限,說難聽一點就是沒讀到什麼書也不想做弊,已經連掙扎也都不想做了。這麼沒有鬥志的想法,真不知道是好事還是壞事?


20080130補充:不作弊的結果

難得考這種分數,紀念一下

(more...)

Zoundry Raven 0.8.185 Alpha發佈,但問題還在

布丁布丁吃布丁

Zoundry Raven 0.8.185 Alpha發佈,但問題還在

就如之前的介紹中所說的,Zoundry Raven是個不錯的部落格離線寫作軟體。官方的討論區在2008年1月22日公佈了Alpha測試版的0.8.185,但我遇到的問題似乎還是無法解決。因此我想趁這個機會把遇到的問題記錄一下,看未來是否能夠改善。

過長的開啟時間

Zoundry Raven開啟時似乎要載入相當多的程式,特別是載入zoundry.blogapp.service.mediastorage時異常地久,而且還非常吃CPU跟記憶體資源(請見上圖),這中途我連打字都會停頓很久,電腦大概會停頓在此狀態三分鐘左右。

平行線仍然不能使用

我不太能懂為什麼這個看起來應該在裝入這個所見即得編輯器之後就能夠使用的功能,到現在還是不能使用。讓我得到XHTML編輯模式下自己輸入<hr />,感覺真奇怪。

Template Manager仍無法完全解析我的部落格樣板

我得先承認這是因為我在樣板裡面使用了一些非Blogger標準規定的JavaScript,但一般在瀏覽器開啟的時候不會發生錯誤,卻在Zoundry Raven裡面就一直顯示錯誤訊息,這還真讓我頭大。

因為沒有時間去研究怎樣修改我樣板中的JavaScript才能夠適應到Zoundry Raven裡面,所以只好繼續等待有朝一日它能夠解析成功吧。

強行修改XHTML原始碼

所見即得編輯器強行修改原始碼不是第一天見到,但是只要模式切換他就立刻修改,逼的我得發佈之後在自行到Blogger上修改內文,就還是第一次看到了。

特別麻煩的是,插入的縮圖前後一定要加<p>標籤,不然縮圖馬上變成失效的程式碼,這真是頭大。

首次Publish(發佈)一定會失敗

這次的版本有改善,但第一次發佈仍然失敗。上傳圖片到一半,就跳出了上面的錯誤訊息。雖然看起來像是int()的錯誤,但我也無從著手修正,只能期待作者改進吧。

諷刺的是,雖然失敗了,但我的Blog裡面卻出現了該篇文章,所以還有下面這個問題。

無法偵測發佈錯誤的文章

注意到上圖,我的Blog出現了發佈錯誤的文章,但是Zoundry Raven卻沒有偵測到。也就是說,當我發佈第二次而且順利發佈成功之後,我的Blog上便會出現兩篇文章,讓我得手動刪去發佈錯誤的首篇。這動作讓我覺得我還蠻蠢的,你說呢?

這是發佈之後的比較圖,最新文章莫名其妙地重複發佈,真是麻煩啊。有人可能會說,為什麼不要僅發佈第一篇錯誤的就好?因為我常常在做發佈後修改的動作,也就是說幾乎都會做第二次發佈,演變成兩篇新舊發佈文章的情況難以避免啊。


如果能改善上述的缺點的話,我想我一定更喜歡Zoundry Raven吧。不然換到可以用WLW的環境,我應該還是會繼續用WLW才是。

(more...)

青春譜新店唱歌記行

布丁布丁吃布丁

青春譜新店唱歌記行

青春譜日文卡拉OK歡唱天地自2007年年中遷店之後,這是我第一次到新店的位置光顧。新店內部明顯地花了大筆銀兩裝潢,但是外面卻連招牌都沒有,讓我朋友看著門牌找了好一陣子。

新店分成大廳與四間包廂,但目前只開放15人包廂一間。入門右手邊是店長小六的櫃檯,進去之後映入眼簾的便是長方形開放式的大廳。再往裡面走進走廊,轉角處是15人包廂入口,走廊再進去則是廁所。整個店的感覺不太大,而且卡拉OK陰暗的氣氛也有點壓迫感,我們還自己開玩笑地說:「趕快確認逃生出口!」

我們這次訂位的是15人包廂,ㄇ字型的沙發圍繞著兩個長方形桌子併起來的大桌子,前方還有不小的舞臺空間可供表演,旁邊也有廁所。雖說是15人包廂,我認為10人左右應該是比較合宜的人數,應該比好樂迪的包廂還要大,加上折價卷大家攤一攤的價格也還算可以接受。包廂內的運作方式跟一般的KTV一樣,由我們自己操作遙控器點歌,所以像是卡歌、調key什麼的,都相當地自由。

有趣的是,不知道是不是在這些店唱久了的習慣使然,我們點歌一樣是一個一個輪流點,唱完一輪再點下一輪。許多人(包括我)事先都有準備歌單,點歌的時候也不會出現像其他在KTV時翻歌本翻老半天的情況。不過那時候來的人只有7人,每個人都唱了超過10首歌,唱到最後連歌單都沒了,大家開始翻歌本找要唱的歌。

新店採用了新的cyber DAM G50機種,可以開啟此網頁查詢歌單,機種選擇cyber DAM G50。目前青春譜的網頁上公告是更新到2007年3月,雖然跟現在差了快一年,但還是有許多讓人喜愛的經典歌曲可點。日本流行的JPOP就不說了,JAM Project的歌曲、I've(KOTOKO川田まみ島みやえい子等)的歌曲、近期的動畫、甚至連倫Game的歌也有,真讓人目不暇給、難以抉擇。

因為沒有很多時間練歌的關係,所以這次都是練唱舊歌。看到社團朋友們的歡樂表演、精湛的唱功,真的是相當地感動。雖然一學期大概只有一次的時間能跟大家一起唱歌,我還是相當地珍惜、把握,並期待下次地聚會。

(more...)

校內公車刷悠遊卡的話會怎樣?

布丁布丁吃布丁

校內公車刷悠遊卡的話會怎樣?

政治大學因為校區內有山坡,雖然大部分的學院跟女生宿舍都在山下,但是也有少部分的學院跟男生宿舍在山上,其中我所在的圖檔所就是在山腰的文學院,而宿舍則是山頂上。

因此政大校內設有公車,分成學生乘坐的普通公車跟教職員專用的綠色小型公車。普通公車就跟外面街道在跑的沒什麼兩樣,應該也是定期改換跑政大校內的班次。校內公車只需要投一塊錢便可搭乘,所以學生常常會保留一元錢幣在身上,不過有時候沒帶錢不投好像也不會有人介意。

在台北公車上一定會有的東西,就是上圖的那個悠遊卡感應器。搭了一個學期的公車,我一直很好奇那個感應器有沒有作用。每次上車的時候,別人都只有投錢,沒人刷悠遊卡。問了其他同學,大家似乎也都是跟著別人做,沒嘗試去刷過。

如果能用悠遊卡刷一塊錢的話,那不是很方便嗎?不用再找零錢了耶。可是大家都不刷,代表刷了要不是非一塊錢,就是沒有效果。

昨晚搭車上山時,車內人少,司機在旁邊跟乘客聊天,我就拿出悠遊卡來刷刷看。「嗶嗶!」學生票的聲音,而且螢幕上面也顯示著「學生 12元」的訊息。

「唉呀!你怎麼刷悠遊卡呢?」司機驚訝地轉過頭看著我說:「你這樣讓我賺了五毛錢耶。」聽到這句話,我笑了出來。司機補充說道:「按下這個『查詢』可以抵掉你剛剛刷的12元喔?要不要按啊。」我想了想,自己很多次都是沒帶錢就坐霸王車,那這次補刷了12塊應該算補足前面的缺額吧,所以就跟司機說沒關係。

事後想想,我應該對司機跟乘客們,用很帥的語氣說「沒關係,那這些錢就當作請接下來坐車的人吧!」才對。那就留到下次投10元的時候再說吧。

(more...)

移除「我的共用資料夾」

布丁布丁吃布丁

移除「我的共用資料夾」

Windows Live Messenger(MSN 8.0)中有個新功能:「我的共用資料夾(My Sharing Folders)」,其功能是產生一個網路檔案中心,讓其他你MSN上的聯絡人都可以到你的「我的共用資料夾」來下載檔案。

可是對於頻寬不大的網路環境來說,這是個不太好用的功能,而且一不小心打開還會造成卡住的狀態,讓我蠻困擾的。

網路上有提供修改登錄檔的方式移除掉「我的共用資料夾」,其修改的方法可以參考這個網頁。另外也找到了直接修改登錄檔的指令檔,你可以下載這個檔案,直接執行,就可以移除掉「我的共用資料夾」了。

(more...)

Tagging and Metadata for Social Information Organization研討會論文閱讀

Tagging and Metadata for Social Information Organization研討會論文閱讀

WWW2007 Workshop:
Tagging and Metadata for Social Information Organization

使用者產生的內容已經改變了整個網路的結構。這些內容──包括影片、網誌、照片等等──通常都是眾人聯手組織起來的。這可能是使用標籤(tags)或是關鍵字,都是由使用者去填寫。

標籤是一種很有用的著手點,它可以藉由搜尋、過濾、導覽及其他方法來拓展資料內容。聯合式的標籤內容資源允許他們用在知識與資訊分享,並且組成一種社會互動,而這些關鍵字之間的關聯可以被用在建立主題網路(topic network)的關係。


這個研討會中討論了七篇論文(由此網站可以下載到全文的PDF檔),而我大略地看了其中的四篇,茲將標題與摘要翻譯紀錄於下:

Learning User Profiles from Tagging Data and Leveraging them for Personal(ized) Information Access

by Elke Michlmayr, Steve Cayzer

由於社會性書籤系統(social bookmarking system)大流行,大量的metadata可以從中取用。要從一堆的使用紀錄當中找出使用者的使用行為(profile),通常是用資訊過濾(Information Filtering)。

這篇論文呈現出該怎麼去從標註資料(tagging data)的動作建立使用者的使用行為。該文用Add-A-Tag演算法找出使用行為,建立該使用者的結構性與暫存性標註資料特點。

這裡有兩個需要主要的收穫。第一,該文作了一個小範圍使用者的實驗,簡單地從一群資料中看到過往有用的標註行為。第二,使用者使用行為可以用來指引使用者,也就是說,提供使用者個人化的指引,去找到資源。

Emerging Motivations for Tagging: Expression, Performance, and Activism

by Alla Zollers

內文社會性標註系統(social tagging system)已經應用在許多個人化資訊組織與檢索上。人們使用各式各樣的網站去標注照片(Flickr)、網站(De.licio.us)、部落格(黑米)以及影片(YouTube)。最近,商業網站例如Amazon.com,也開始將標註系統應用到網站上。就連圖書館的OPAC也有標註系統了,這真是一股無法抵擋的趨勢。

這種標註的類型不只是個社會現象,讓使用者可以看到其他的標註與資源,同時也是種蒐集或合作,任何使用者可以標註任何資源。藉 由分析兩個自由標籤網站(Amazon.com與Last.fm)的實作,該篇文章敘述找出標籤的社會性動機(social motivations ofor tagging)。從系統中找出來的動機將會包括表達(expression)、呈現(performance)與行為學(activism)。

備註:

Amazon.com我想大家都很熟了,比較陌生的應該是Last.fm,所以我去找了wikipedia的資料來看看:Last.fm是一個以英國為總部的網路電台和音樂社區。有遍佈232個國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價格收購,是目前歐洲Web 2.0網站中成交價最高的紀錄。

Applying Collaborative Tagging to E-Learning

by Scott Bateman, Christopher Brooks, Peter Brusilovsky

這篇論文概要地描述作者用合作式標籤支援數位學習的傳統metadata蒐集策略。最近10年間,學習導向示例(learning object paradigm)已經被用來在數位學習上,而且讓標準本身變成專注在於基於自由分類的情況下創造metadata保存資料庫。我們同意社會性蒐集現象與輸入可靈活改變的metadata標準將是調整線上學習所需。這篇論文將會用宏觀的角度來看標註在數位學習上的應用。

首先先看到特定領域的標註實作,透過分析學生們為學習物件分類所提供的標籤。接著看到兩個應用標註到長篇小說介面的案例。這兩個系統使用突顯重點的方式,強調標籤應用到學習內容中。因為跟老師的理念蠻接近的,所以很值得一讀

後面的案例裡面,作者用Open Annotation and Tagging System(OATS)這個開放原始碼的工具來強化學習管理系統。OATS提供了自我組織工具、標註筆記(note-takeing)到內容裡、還有畫重點的功能。如果很多人在同個地方畫重點,那個段落的背景色就會由原本的黃色漸漸變重,這種凸顯重點的方式作者稱之為social annotation support。

作者的tag跟note是分開的。tag是分類用,note則是紀錄事情用。他用tag去分將畫重點的文字與note作分類,形成一種社群。

文章後面討論到多媒體的tag,作者提到YouTube將影片切割成30秒左右的小段落去作tag,這樣有助於分享與找尋資料(畢竟一個10分鐘的影片也不是全部都是重點)。但是YouTube並沒有提供影片本身的annotate或note taking,只有簡單的開放討論版。

Network Properties of Folksonomies

by Christoph Schmitz, Miranda Grahl, Andreas Hotho, Gerd Stumme, Ciro Cattuto, Andrea Baldassarri, Vittorio Loreto, Vito D.P. Servedio

近年來,社會性資源分享系統如YouTube以及del.icio.us吸引了為數可觀的使用者。他們提供了豐富的資源,可供資料分析、資訊檢索以及知識發掘應用。朝這方向的第一步就是對這些內容與系統架構有更好的著眼點。

在這篇論文中,我們將會分析兩種系統的網路特性。我們思考了他們的潛在資料架構──又稱為社會性分類(folksonomiy)──為第三個特性,並且為他們調整了傳統網路測量方式,例如特性路徑長度(characteristic path length)以及聚合係數(clustering coefficient)。

接著,我們介紹網路合作式標註以及它的特性統計調查,關注各節點之間的關連反映出社會性分類的語義。我們將展示簡單的統計指示模糊少量非社會性行為,例如垃圾郵件。

(more...)