:::

Apache Solr:簡單建立全文搜尋引擎 / Apache Solr: Build a Fulltext Search Engine by Yourself

image

這是我在2015年政大圖檔所網路資訊檢索研究課程中所講的「Apache Solr全文搜尋引擎」。這份投影片教大家如何從無到有建立搜尋引擎。跟單純的關聯式資料庫(RMDB)不同,全文搜尋引擎是以XML檔案設定文件的欄位,並可提供指定欄位、層面等簡單的搜尋查詢條件,還可以進一步全文搜尋引擎特有的斷詞器、停用字、同義字、大小寫、詞幹切截等過濾器與檢索權重排序的設定。這份投影片附帶一份完整的Apache Solr環境,主要是為了Windows環境佈置。其中有個步驟需要將匯入資料的試算表檔案轉換成適合Solr的格式,我發展了一個試算表轉換成Solr XML格式小工具,以便我們匯入資料到Solr中。


大綱 / Outline

image

  • Part 0. Apache Solr介紹
  • Part 1. 系統架設
  • Part 2. 資料建置
  • Part 3. 顯示與搜尋的設定
  • Part 4. 資訊檢索的設定
  • Part 5. 修改版面

投影片 / Slide

我以Google簡報的檔案匯出成PPTX,再備份到以下位置:


Windows初學版Apache Solr / Apache Solr for Windows starter

image43

Apache Solr是開放原始碼的全文搜尋引擎。對初學者來說,要設定環境與佈置可能不太容易。所以我做了一個供Windows使用者學習Apache Solr的簡易入門包。

image

下載、解壓縮後,開啟「start_solr&open_search_ui.bat」檔案,就能夠開始使用Apache Solr。其他Apache Solr的功能就請去看投影片囉。

試算表轉換成Solr XML格式小工具 / Excel to Solr XML


小結 / In closing

2017-10-25_163738

這份投影片大幅度地簡化了整個Apache Solr的安裝、架設、建立檔案與客製化的步驟,這份兩年前做的投影片仔細到一種看圖就能完成的程度。而且在這個過程中,學習者必須經歷許多程式設計師必經、但被我包裝成比較簡單的過程:

  • 指令列的執行 (但是包裝成bat執行檔了)
  • XML的設定與修改:使用純文字檔案
  • 樣板語言Velocity的設定 (可惜Veloctiy比較少人用了)

如果學生能夠順利掌握這些流程,不論工作現場出現了任何系統,應該都有辦法能夠靈活應對,摸著文件就能學習如何調整與設定。

image

儘管一開始我就開宗明義地說,這是實戰性的課程單元。但可惜的是,大部分圖書資訊學系的學生仍當自己是個使用者,只要不是點點滑鼠就能完成的操作,一律都是系統廠商的領域。這樣的想法會將自己限縮於一位使用者,而無法成為管理者、甚至是開發者的程度。這部分的觀念教育有待大家努力。

總之,事隔兩年之後,總算把這篇Apache Solr的教學整理上來了。心中的大石頭又放下了一塊。


本篇Apache Solr的教學就到這邊告一段落了。Apache Solr的全文檢索引擎,跟你知道的概念是否相同呢?如何有這樣的全文搜尋引擎的話,你覺得可以放入什麼資料供大家使用呢?歡迎在下面的留言處與我分享你的想法,或是在AddThis分享工具按讚、分享到Facebook等社群媒體吧!感謝你的耐心閱讀,讓我們下一篇見。