:::

使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content

使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content

image

如果要做檔案中的全文檢索服務,那就要先把檔案的內文抽取出來轉換成字串,這樣才能提供全文檢索引擎進行索引。Apache Tika是一個萬用型的檔案內文抽取工具,我們可以用指令列來操作Tika,就能從PDF、Microsoft Office、Open Document、純文字檔案等文件抽取內文。非常好用!

(more...)

簡易PHP中文斷字器 / A Simple Chinese Word Tokenizer in PHP

布丁布丁吃布丁

簡易PHP中文斷字器 / A Simple Chinese Word Tokenizer in PHP

image

這篇製作了一個簡單的斷字器,將「這份編號是tc_130的心靈錯位器真是太cool了」變成「這 份 編 號 是 tc _ 130 的 心 靈 錯 位 器 真 是 太 cool 了」。詳細來說,就是在不是英數字的文字前後加上空格,但是英數字則保持原樣。這樣子就能讓Apache Solr這樣的全文檢索引擎為內容索引時,就可以找到以中文一個字為單位的層級了。

 

(more...)

「布丁布丁吃什麼?」留言功能調整:上傳圖片 / Comment Form New Feature: Image Upload

布丁布丁吃布丁

「布丁布丁吃什麼?」留言功能調整:上傳圖片 / Comment Form New Feature: Image Upload

image

最近有讀者覺得留言框只能寫文字、不能上傳圖片,不太方便發問。所以我在留言框的下面加上了Imgur上傳圖片的連結,並以這篇教大家如何上傳圖片、取得圖片網址,這樣大家就更能夠方便發問了。

(more...)

集換式卡片遊戲「水瓶戰記」的結尾 / The End of Aquarian Age

布丁布丁吃布丁

集換式卡片遊戲「水瓶戰記」的結尾 / The End of Aquarian Age

image

最近這幾天忽然很想知道現在水瓶戰記(水瓶世紀)的運作狀況,所以就上網查查看,簡單閒聊一下。(圖片來自於水瓶戰記官網)

(more...)

開放原始碼數位典藏整合平台發展與建置 / Introduce to DSpace-DLLL: an Open Source Digital Archive System

布丁布丁吃布丁

開放原始碼數位典藏整合平台發展與建置 / Introduce to DSpace-DLLL: an Open Source Digital Archive System

image

這是我在2016年到兩個地方介紹DSpace-DLLL的投影片。一個是在政治大學圖書館舉辦的「數位典藏、數位策展暨數位人文學研習班」,內含實作的3小時課程,另一個是在國立師範大學舉辦的「台北市教師研習中心校史研習班」單純講課的課程。這兩個課程都可以搭配我另外製作的VirtualBox版本DSpace-DLLL虛擬機器來使用,以下提供連結讓有需要的人自由下載。

(more...)

想用無限空間沒那麼容易!Google Drive與伺服器整合失敗記錄 / Solution to Integrate Google Drive with Services: not reliable

想用無限空間沒那麼容易!Google Drive與伺服器整合失敗記錄 / Solution to Integrate Google Drive with Services: not reliable

image

最近花了一段時間在研究怎麽把Google Drive (Google雲端硬碟)ZoteroProxmox伺服器整合。整合之後可以運作,但是可能是因為檔案處理速度過慢或是Google Drive API配額的限制,最後都無法順利運作。這篇記錄一下到目前為止的研究進度。

(more...)

從社交角度來看閱讀行為研究計劃 / Social Aspects of Reading Behavior Research

布丁布丁吃布丁

從社交角度來看閱讀行為研究計劃 / Social Aspects of Reading Behavior Research

image

這是我在去年12月的時候到ASIS&T臺北分會論壇跟大家分享的投影片。投影片內容介紹了我想要研究的社交閱讀行為背景,以及我如何使用社交知覺、閱讀悅趣化來改善閱讀,並使用行為分析跟腦波來分析閱讀行為的研究計劃。

(more...)

典藏不斷變動的壁畫:臺中動漫彩繪巷 / Taichung ACG Alley

布丁布丁吃布丁

典藏不斷變動的壁畫:臺中動漫彩繪巷 / Taichung ACG Alley

image

臺中美術館附近的一個小巷子,整面牆都是旁邊機車行老闆的畫布,這就是臺中動漫彩繪巷。傳說中,老闆覺得畫布(牆壁)不夠多,會在一段時間之後把原本的畫作塗掉重繪。現在動漫彩繪巷的牆上畫作,跟在2014年介紹動漫彩繪巷的各個網誌的描述,已經有很多繪畫都不一樣了。既然如此,本著數位典藏的精神,我就在這邊記錄一下臺中動漫彩繪巷在現在2017的畫作吧。

(more...)

試算表應用實務 LibreOffice Calc (第四堂):減肥紀錄表 & 訂購單 & 成績單 / LibreOffice Calc Tutorial (Lesson 4): Food record & Order & Grade Report

試算表應用實務 LibreOffice Calc (第四堂):減肥紀錄表 & 訂購單 & 成績單 / LibreOffice Calc Tutorial (Lesson 4): Food record & Order & Grade Report

image

這是我在去年5月的時候到空中大學講授LibreOffice Calc的內容,這也是這一系列最後一堂課了。這堂課我借用了秋思blog中的減肥紀錄表,將它轉換成LibreOffice的格式,跟同學介紹如何使用一個綜合函式、圖表的複雜表格。此外也介紹了訂購單與成績單兩個例子,剛好用來練習函式計算。

(more...)

如何整理BBS的文字資料?文字檔案斷行連結工具 / Broken Lines Text Formatter

如何整理BBS的文字資料?文字檔案斷行連結工具 / Broken Lines Text Formatter

image

這是我為了文本探勘所撰寫的一個小工具。有些文字會在固定的寬度斷行,就像是BBS的畫面一樣。這樣文字探勘時會對句子、斷詞造成誤判。因此我寫了一個文字檔案斷行連結工具來將文字斷行的地方重新連接成一行。整理後的文本就比較容易進行後續的分析了。

(more...)