如何查看PDF裡面的註解? / How to View Annotations in a PDF?
如何查看PDF裡面的註解? / How to View Annotations in a PDF?
請使用PDF-XChange Editor來檢視PDF的註解,不要用瀏覽器內建的陽春PDF檢視器來看。
(more...)12月 26, 2023 0 Comments Annotation APP PDF
請使用PDF-XChange Editor來檢視PDF的註解,不要用瀏覽器內建的陽春PDF檢視器來看。
(more...)Pui Pui大家午安啊,我是在寒冷又溼漉漉的地方裡,期望下雨降在集水區的布丁。在這個寒冷的天氣裡,今天就跟大家聊聊臺灣工程師最受歡迎的程式語言跟資料庫技術吧!
全世界工程師最後的救星Stack Overflow在2020年二月發佈了2020年開發者調查結果。統計5萬多位工程師最喜歡的程式語言中,JavaScript以67.7%名列第一。年初時Easy Website的站長網站哥以這份開發者調查資料為基礎,將臺灣開發者所流行的程式語言與資料庫繪製成統計圖表,結果竟然跟世界潮流不太一樣。至於差異在哪裡,就讓我們看下去吧。
(more...)7月 20, 2019 57 Comments Work/Widget
每次看到PDF中有著一大段的文字時,你會不會感到腦袋跟這些文字一樣糊成一團呢?在讀英文論文的PDF檔案時,總是想把看不懂的段落複製、貼上到Google翻譯,但是你有遇過因為一句話被斷成兩到三行、APA引用的括號卡在中間,讓Google翻譯的結果看起來非常奇怪的窘境嗎?
放心,這些問題通通交給PDF論文閱讀神器來解決。它能將PDF複製的文字重整成一句話一個段落(中英文皆可)、自動翻譯成指定中文,快用它來加快你的論文閱讀速度吧!
(more...)4月 16, 2019 21 Comments 日記 Blogger
有人發現到最近「布丁布丁吃什麼?」的網站有些微的改變嗎?應該沒什麼人會注意到吧,因爲主要的改變都是在後端:Blogger範本程式碼的管理。這篇就些微的改變嗎?應該沒什麼人會注意到吧,因爲主要的改變都是在後端:Blogger範本程式碼的管理。這篇就來聊聊我管理「布丁布丁吃什麼?」範本程式碼的一些歷程吧。必須先說明的是,這只是我個人的做法,應該不適合大部分的使用者喔。
(more...)12月 17, 2018 14 Comments Software/Zotero Zotero
在中英文文獻夾雜的論文中使用Zotero插入文獻時,我推薦大家使用布丁版中英APA引用樣式,而不是Zotero內建的American Psychological Association 6th edition。我在2014年時寫過Firefox擴充套件版本Zotero安裝引用樣式的做法,這篇則是教大家在Zotero Standalone版本下安裝布丁版中文APA引用樣式。
(more...)5月 14, 2018 4 Comments Drawing Software/Inkscape Software/Word
EMF的全名是Enhanced Metafile,翻譯做Windows增強中繼檔,這是一種微軟專用的向量圖檔案,其目的是為了取代較早期32位元的WMF格式(Windows Metafile,Windows中繼檔)。EMF在Office軟體中能以無鋸齒的向量模式運作,但是它卻很難以高解析度的模式匯出成其他格式的圖片,令人難以使用。站在支持開放格式的立場,我這篇將教你如何將微軟專用的EMF向量圖轉換成開放格式的SVG格式,以便後續再進行編輯或轉換成高解析度的PNG圖檔。這篇教學是在Windows 7環境下使用Word 2013與InkScape來完成整個轉換動作,請確定你有這些環境才能做到本篇教的EMF轉SVG喔。
(more...)3月 11, 2017 0 Comments Server/Apache Solr Software/Apache Tika
如果要做檔案中的全文檢索服務,那就要先把檔案的內文抽取出來轉換成字串,這樣才能提供全文檢索引擎進行索引。Apache Tika是一個萬用型的檔案內文抽取工具,我們可以用指令列來操作Tika,就能從PDF、Microsoft Office、Open Document、純文字檔案等文件抽取內文。非常好用!
(more...)3月 11, 2017 2 Comments Programming/PHP
這篇製作了一個簡單的斷字器,將「這份編號是tc_130的心靈錯位器真是太cool了」變成「這 份 編 號 是 tc _ 130 的 心 靈 錯 位 器 真 是 太 cool 了」。詳細來說,就是在不是英數字的文字前後加上空格,但是英數字則保持原樣。這樣子就能讓Apache Solr這樣的全文檢索引擎為內容索引時,就可以找到以中文一個字為單位的層級了。
(more...)
2月 09, 2017 7 Comments Course DSpace Software/DSpace
這是我在2016年到兩個地方介紹DSpace-DLLL的投影片。一個是在政治大學圖書館舉辦的「數位典藏、數位策展暨數位人文學研習班」,內含實作的3小時課程,另一個是在國立師範大學舉辦的「台北市教師研習中心校史研習班」單純講課的課程。這兩個課程都可以搭配我另外製作的VirtualBox版本DSpace-DLLL虛擬機器來使用,以下提供連結讓有需要的人自由下載。
(more...)1月 14, 2017 0 Comments 作品 碩士畢業論文 KALS Publication/Conference
這篇「合作式閱讀標註之標註行為特徵與閱讀理解關聯」是我在第二屆數位合作學習與個人化學習研討會跟大家分享的文章跟投影片,也是我碩士論文的簡要版本。
(more...)11月 21, 2016 0 Comments Linux OS/Linux Programming/PHP
PHP中可以用exec()等指令來執行系統指令,但是執行指令時的身份會是運作網頁伺服器的身份,大部分預設就是www-data。而www-data身份是不能執行影響作業系統的功能,如果想要進行像是重新啟動 (reboot)或是重新啟動Apache Tomcat的操作,就必須以root管理者身份操作才行。本篇參考StackOverflow上的解法,在PHP以SSH2連線以root登入後直接進行指令操作,如此就能解決權限上的問題。
(more...)R的文本探勘(text mining)大多是基於純文字檔案進行,而我將文本探勘處理的資料輸入、輸出儲存整合到PostgreSQL資料庫,讓R的文本探勘能夠更容易跟其他系統整合。這篇文本探勘中進行了HTML內文擷取、新詞加入與斷詞處理、符號過濾、英數字過濾、停用字過濾、最小詞彙長度與頻率過濾等處理步驟。以下介紹系統架構跟R Script的設定,並以我的網頁為資料來源示範如何進行文本探勘。
(more...)10月 22, 2016 0 Comments DSpace
原本DSpace 1.5.0使用的是Lucene的ChineseAnalyzer,最近我需要把CKIP中文斷詞的服務加進DSpace當中,於是我自己做一個適合DSpace 1.5.0版本的CKIPChineseAnalyzer。這僅供需要研究斷詞器的人使用,一般使用者不建議更換斷詞器。以下介紹這個CKIPChineseAnalyzer的安裝步驟。
(more...)8月 05, 2016 10 Comments 作品 Programming/AutoIt Software/Windows Work
將文件數位化掃描之後,我常常需要將掃描兩頁一起的圖片從中間切開,然後再合併成一份PDF,這樣方便做成電子文件來檢閱。我雖然介紹過功能強大、可以自動判斷中間切割線的Scan Tailor,或著是功能比較少的PSP Comic Converter,但是他們操作都還是太複雜了。我找來找去找不到滿意的工具,索性自己用AutoIt跟Image Magick自己寫一個圖片分割與PDF轉換工具:「布丁式圖片工具箱」。
這個工具箱包含水平切割工具(split-horizontally.exe)、垂直切割工具(split-vertically.exe)以及PDF轉換工具(images-to-pdf.exe)。只要將要處理的圖片以這些工具開啟,就能完成切割或轉換成PDF的工作。比起使用上述工具來說,效率快上許多喔!
(more...)建立一個應用系統已經不需要從基本的作業系統開始安裝起,現在流行的是使用虛擬應用範本(Virtual Appliance)來建立開箱即可用的應用系統。當然,在不同的虛擬機器管理器(Hypervisor,或稱為Virtual Machine Monitor, VMM)上,使用虛擬應用範本建立虛擬機器的操作方式都有所不同。以前我介紹的大多都是偏伺服器管理的Proxmox VE,這次要為大家介紹的在較為流行的VirtualBox中匯入OVF格式虛擬應用範本(在VirtualBox中,稱為虛擬應用裝置)的做法。
(more...)最近在觀看Proxmox VE改版的時候才發現Proxmox VE已經捨棄使用OpenVZ虛擬化技術,而且虛擬應用範本主要的來源Turnkey Linux亦不再提供OpenVZ的格式。為了避免以後使用OpenVZ時找不到虛擬應用範本可供安裝,我認為需要趕快將手邊有的虛擬應用範本備份到其他地方,以供未來需要的時候還能找來下載。下面我以虛擬應用範本內含的系統來分類,有些混雜了下載自Proxmox VE跟我自己做的虛擬應用範本,全部一併備份吧。
(more...)4月 11, 2016 0 Comments 期刊論文閱讀 課程/國際檔案學
這是一篇國際檔案學的課堂報告。雖然有人認為歷史系學生應來為史料做數位典藏,然而其實數位典藏這件事情本身就是一門專門的學問,我們可以從這一篇文章來看看蘇格蘭學者規劃數位典藏所考量的問題。
本文所講的「Digital Curation」跟圖資界現在談的「數位策展」其實有不小的差距。在2011年的時代,「數位策展」被認為是「數位典藏」的下一步:不僅只是將資料儲存起來,還要能夠確保長期保存與容易取用。然而現代認為數位策展著重於後者:取用與進一步的應用,但這篇仍然重於長期保存議題。我在整理這篇時還是以「數位策展」一詞翻譯「Digital Curation」,但是請大家注意到兩者之間的差異。
值得慶幸的是,本文煩惱要如何建置符合OAIS模型系統的問題,現在已經有大量數位典藏系統都是基於OAIS模型建立,包括我們很常見的DSpace系統。回顧過往,就會強烈地感覺到,我們的確是站在巨人的肩膀上向前邁進。
(more...)2月 24, 2016 2 Comments 作品 發表
2月 21, 2016 0 Comments 報告/教學課程 期刊論文閱讀 課程/檔案學
這一篇是檔案編排與描述課堂中的閱讀報告。作者說明後設資料在數位化場期保存策略中的地位。然後介紹OAIS參考模型及其計劃。最後提出場期保存將會面臨互通性與成本兩大問題。這些都很像是高考會拿來出題的範圍,同學至少要有些概念。
Day, M. (2004). Chapter 12. Preservation metadata. In G. E. Gorman & D. G. Dorner (Eds.), Metadata applications and management (pp. 253-273). London: Facet Publishing.
這篇文章提到的OAIS參考模型是一種數位典藏系統的建構理論。有趣的是,現在我們很常使用的DSpace其實就是基於OAIS的架構來設計。所以DSpace裡面很多用詞跟資料結構都跟OAIS一樣。雖然不少人都把DSpace當做檔案上傳與下載的資料庫,但其實它的確是為了長久典藏數位化檔案而設計的。
此外,這一篇報告中介紹了一些數位化的相關計劃:NLA 澳洲國家圖書館、Cedars英國國家檔案館、NEDLIB 歐洲典藏圖書館同盟、OLCL/RLG 美國圖書館研究團隊、NLNZ 紐西蘭國家圖書館。後來成為「保存性後設資料計劃比較 RLG, Cedars, NLA, NEDLIB」這一篇的一部分。實際上這兩份報告應該是要合在一起看才是。供大家參考囉。
(more...)6月 26, 2015 3 Comments Library/ORCID
我們期望ORCID是一個研究者單一識別目錄,而可以以此修正各資料庫上同名同姓的識別問題,以及可以在作者發表新的著作時自動同步回ORCID。但是在最近的研究中,意外地發現ORCID並沒有做到「自動的同步」這件事情。
在引文索引資料庫Scopus上,國立政治大學的陳志銘老師一直苦於自己的著作被誤認為是國立中興大學的陳志銘老師。中興的陳老師有兩百五十幾篇著作,裡面有六十幾篇都是政大陳老師的文章。
知道ORCID可以協助作者來修正資料庫上同名同姓的問題時,政大陳老師很高興地請下面的人協助來做文章與作者對應動作,老師稱此動作「binding」。
柯皓仁老師推廣ORCID已經有很長一段時間,他寫了一篇文章教導大家如何「以Scopus鏈結ORCID」。大致上的步驟如下:
由於卡在找不到陳老師的AuthorID這個節骨眼上,所以整個匯入與辨識動作花了不少時間。陳老師在Scopus上60篇的文章用了兩個工作天才彙整完成,不過必須要等7個工作天之後,Scopus上才能正確顯示之前手動辨識的資料。
看到Scopus上正確顯示自己的60篇文章資料,陳老師很是高興啊。可是當我們打開ORCID資料時赫然發現到:
著作竟然只有1篇!
(雖然截圖是2篇,但1篇是我的測試,並不是真的老師的文章)這一篇是當初老師在Scopus正確對應到老師資料的那一篇文章,我們之前先用上述步驟把這篇匯入到ORCID。但是過了7個工作天之後正確對應的其他59篇卻沒有自動匯入到ORCID。
這讓我們心中冒出了一個巨大的問號:難道Scoups的「增加到ORCID」功能,實際上不會自動增加嗎?
因此這就讓我開始想從不同角度來測試看看ORCID與Scopus資料庫之間的同步能做到什麼程度。
讓我們來看看臺大醫學院AcademicHub中詹老師的情況。臺大的AcademicHub以與ORCID自動同步的強大功能聞名於圖書館界,讓不少人為之嚮往。而從這個頁面上我們可以看到詹老師的著作總共收錄了20篇。
連到詹老師的ORCID個人頁面,也可以看到這20篇著作。這可是跟香港大學學術庫只是在作者欄位記錄ORCID ID,可是著作幾乎沒有同步到ORCID是不同層次的境界啊!
ORCID的清單上我們可以看到大部分都跟Scopus相連結,因此我們再來進一步看看Scopus上詹老師的AuthorID頁面。
著作竟然是21篇。
比較ORCID上的著作跟Scopus新增的結果,新的著作是2014年10月發表的文章:
比對該篇文章的內容,的確是臺大詹老師的著作沒錯。我推測可能是因為詹老師發表時有登錄ORCID,但是我找不到他發表這篇文章的European Journal of Cardio-thoracic Surgery使用的投稿系統CTSNet有使用ORCID的相關資訊就是了。
文章發表到今日已經過了8個月,儘管仍然可能有處理延後等可能性在,但從這個結果來看,Scopus很有可能不會同步資料回到ORCID。
剛剛我們看到了柯老師教我們如何從Scopus匯入資料到ORCID,但是老實說上面幾個步驟下來還是有點麻煩,而且怎麼看都像是在幫Scopus維護資料,而甚至修正後的資料也不太像會回到ORCID。
那麼我們能不能逆向思維:藉由在ORCID上維護正確的著作目錄,來修正Scopus上的辨識作者錯誤的問題?這也是我們一直在追求作者權威控制的最終目的,讓我們來試試看這個功能是不是能夠正常運作。
這一篇是我的著作,但很遺憾的是,這篇文章被誤認為是嘉義大學的Chen, Yongting。
讓我在ORCID上用手動的方式詳細地新增這筆資料到我的Works中,甚至連DOI「10.1108/02640471211241681」都填進去了。
結果Scopus上這篇文章依然是在嘉義大學的Chen, Yongting底下,沒有立即自動更新。
ORCID可以手動新增著作這點,看起來並不像會跟Scopus一樣,會請人花一段時間來審核,而是像是Facebook一樣可以自行新增。於是我們就做了另一個測試:如果在ORCID上故意輸入錯誤的著作文章,而仍然是作者同名同姓的話,那會有什麼結果?
這一篇文章雖然不是我的著作,但裡面有另一位真正是嘉義大學Chen, Youg-Ting的作者姓名。
由於上面輸入了DOI無效,這次我特別從該篇文章的網址找出Scopus Identifier (EID):「2-s2.0-84923949778」來記錄看看。
結果Scopus依然不會同步更新。
新增的時候,ORCID會記錄新增資料的來源者是誰。如果是我自己新增的記錄,就會記錄我的名字;如果是用上述方式來自於Scopus匯入的資料,就會有Source: Scopus to ORCID的記錄。也許這會是辨識這筆資料到底是否是由權威單位新增的重要欄位,但這也意味著由ORCID並不鼓勵作者自行在ORCID頁面上新增著作,因為作者可能會自己亂寫,就跟我這個測試一樣。
ORCID在我的期望中,一直以為是一個能夠自動記錄作者著作的有力工具。照理來說,當研究者投稿到期刊時,如果一併記錄了ORCID,那麼就應該可以自動記錄到ORCID的著作目錄中。
教育資料與圖書館學是一個已經從學術傳播的源頭支持ORCID,可以看到這篇「台灣圖書資訊學期刊論文之文內引用錯誤研究」的作者都已經標示了ORCID ID。
但是回到作者的ORCID頁面,我們可以注意到這篇文章仍然是作者手動自行增加的記錄,而不是由機構或其他單位自動新增的結果。
教育資料與圖書館學這本期刊是被收錄在EBSCO Host,而不是Scopus。但是EBSCO Host中我找不到如何用ORCID來搜尋作者的方法,在該資料庫中依然是用名字在串聯作者。
在這段過程中,我們發現另一個意外的問題。儘管我們幫陳志銘老師在Scopus的AuthorID正確地對應到ORCID,可是卻沒辦法用Scopus作者搜尋陳志銘老師的ORCID「0000-0002-7088-5516」。
另一方面,詹老師的ORCID「0000-0003-3410-605X」甚至連搜尋都無法使用,這可能是因為Scopus以為ORCID只有數字,而「X」卻是在數字範圍之外的錯誤資料。
但是我另外搜尋林老師的ORCID「0000-0002-4894-8031」時,Scopus就能夠正確地顯示結果出來。
這也是令我們感到意外的問題,也可能是Scopus目前對於ORCID的整合也尚未成熟吧?
如果暫時不考慮資料彙集可能是排程或延後進行的問題,那麼根據以上測試的結果我們可以獲得以下結論:
比較令人困擾的是2跟3無法自動同步的這點。因此以下我跟大家討論一下,看看未來ORCID是否會做到這種程度的可能性。
有一種說法是:ORCID是非營利機構,Scopus是盈利企業,所以盈利企業應該不會平白無故貢獻自己辛苦整理的書目資料給ORCID。也就是說,看起來這件事情不太可能。
當然,我們相信在圖書館工作的人都是心地善良、無悔付出的好人,也許有朝一日Scopus良心發現,可能會有所改善。
同樣地也有一種說法:ORCID是站在開放的角度,但是Scopus則是盈利事業。因此要一個非營利單位來修改賣錢系統上的資料,也一樣不太可能。
不過在談ORCID到底能不能同步到Scopus的這件事情之前,我想應該要先解決ORCID自行建置的著作目錄可能不具權威性,也就是作者自行亂建錯誤資料的問題。審查資料的正確性需要花費大量的人力,這是一個非營利單位ORCID可能負荷的了的工作嗎?我內心充滿質疑。
從上面的討論看下來,目前的ORCID只能說是一個開放資料交換的目錄,有提供現在流行的RESTful API。然而,ORCID尚未有良好的權威控管,也沒有全自動地跟其他資料庫之間整合,以維護作者資料的正確性。
ORCID要做到廣納百川、成為最終大家參考、分析的權威目錄,可能還得要先克服前面的眾多問題。到底是否值得在ORCID維護自己的著作目錄,我認為可能還要再觀望一陣子比較好。
題外話,在Google學術搜尋上維護我的著作目錄如何呢?
(more...)
Comments