使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content
布丁布丁吃布丁
使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content
如果要做檔案中的全文檢索服務,那就要先把檔案的內文抽取出來轉換成字串,這樣才能提供全文檢索引擎進行索引。Apache Tika是一個萬用型的檔案內文抽取工具,我們可以用指令列來操作Tika,就能從PDF、Microsoft Office、Open Document、純文字檔案等文件抽取內文。非常好用!
(more...)
Comments