:::
顯示具有 Server/Apache Solr 標籤的文章。 顯示所有文章

Apache Solr:簡單建立全文搜尋引擎 / Apache Solr: Build a Fulltext Search Engine by Yourself

Apache Solr:簡單建立全文搜尋引擎 / Apache Solr: Build a Fulltext Search Engine by Yourself

image

這是我在2015年政大圖檔所網路資訊檢索研究課程中所講的「Apache Solr全文搜尋引擎」。這份投影片教大家如何從無到有建立搜尋引擎。跟單純的關聯式資料庫(RMDB)不同,全文搜尋引擎是以XML檔案設定文件的欄位,並可提供指定欄位、層面等簡單的搜尋查詢條件,還可以進一步全文搜尋引擎特有的斷詞器、停用字、同義字、大小寫、詞幹切截等過濾器與檢索權重排序的設定。這份投影片附帶一份完整的Apache Solr環境,主要是為了Windows環境佈置。其中有個步驟需要將匯入資料的試算表檔案轉換成適合Solr的格式,我發展了一個試算表轉換成Solr XML格式小工具,以便我們匯入資料到Solr中。

(more...)

使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content

使用Apache Tika指令列抽取文件的內文 / Using Apache Tika Extract File’s Content

image

如果要做檔案中的全文檢索服務,那就要先把檔案的內文抽取出來轉換成字串,這樣才能提供全文檢索引擎進行索引。Apache Tika是一個萬用型的檔案內文抽取工具,我們可以用指令列來操作Tika,就能從PDF、Microsoft Office、Open Document、純文字檔案等文件抽取內文。非常好用!

(more...)

將CSV與XLSX轉換成Solr XML格式 / Convert CSV and XLSX to Solr XML format

將CSV與XLSX轉換成Solr XML格式 / Convert CSV and XLSX to Solr XML format


2014-12-12_010659
Apache Solr要匯入資料的格式預設是使用XML,但這跟我們習慣使用的Excel有很大的差別。因此我利用js-xlsx套件作了一個可以在線上將Excel的XLSX格式轉成Solr XML格式的工具,方便大家把Excel資料匯入Solr。您可以在這個網頁直接使用此工具,而更新的程式碼則是典藏在GitHub上。
This tool is used to convert Excel XLSX format file to Apache Solr’s data import XML format. Following is online tool and you can download whole JavaScript codes on GitHub.
(more...)