匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R
匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R
在「整合PostgreSQL資料庫的R中文文本探勘」我們用R對文本進行斷詞分析處理,最後將結果儲存到資料庫中。這篇我們就要用儲存在資料庫的結果來繪製文字雲圖片。
(more...)11月 08, 2016 0 Comments Programming/R Software/R
在「整合PostgreSQL資料庫的R中文文本探勘」我們用R對文本進行斷詞分析處理,最後將結果儲存到資料庫中。這篇我們就要用儲存在資料庫的結果來繪製文字雲圖片。
(more...)R的文本探勘(text mining)大多是基於純文字檔案進行,而我將文本探勘處理的資料輸入、輸出儲存整合到PostgreSQL資料庫,讓R的文本探勘能夠更容易跟其他系統整合。這篇文本探勘中進行了HTML內文擷取、新詞加入與斷詞處理、符號過濾、英數字過濾、停用字過濾、最小詞彙長度與頻率過濾等處理步驟。以下介紹系統架構跟R Script的設定,並以我的網頁為資料來源示範如何進行文本探勘。
(more...)11月 07, 2016 3 Comments Programming/R Software/R
我以OpenVZ虛擬機器建立了一個獨立運作的RStudio Server,架設起來之後就能夠直接用網頁來開啟可以正常運作的R環境。它不僅預先裝好了文字探勘與資料庫所需要的套件,而且不會受到在Windows環境下處理中文發生亂碼問題的限制。架設這樣的環境費時費工,所以我決定將它做成開箱即可用的OpenVZ虛擬機器,在此跟大家分享。
(more...)11月 06, 2016 0 Comments Programming/R Software/R
這篇只是很短地記錄解決在R中使用wordcloud套件畫不出中文文字雲的原因與做法。
(more...)
11月 06, 2016 3 Comments Programming/R Software/R
因為Windowd的R處理中文的時候無法避免亂碼的問題,所以我改用OpenVZ架起Ubuntu 14.04 (amd64),並在上面安裝R跟RStudio Server來運作。然而這版Ubuntu上面安裝的R版本為3.0.2,並非最新的3.0.3,大部分套件都不能正常安裝。儘管如此,我們還是可以透過手動的程序來下載、安裝舊版的套件。這篇以RMySQL套件為例,教大家如何在舊版R中安裝對應版本的舊版套件,而且一併處理系統套件相依的問題。
(more...)11月 05, 2016 4 Comments Software/Zotero Zotero
這是供Zotero從CNKI中國知網臺灣網站匯入書目的轉譯器(translator),它可以讓Zotero直接在CNKI臺灣網站中匯入文獻的書目資料。原本Zotero就有CNKI的轉譯器,但是它跟CNKI臺灣網站(cnki.sris.com.tw)使用的網域不同,所以我將原本的轉譯器改寫之後分享。希望能夠藉此促進我國研究者使用Zotero的的意願。
(more...)11月 05, 2016 0 Comments Software/PostgreSQL Software/PostreSQL
PostgreSQL有個COPY指令可以將csv格式的文件快速匯入資料表中,而這個操作可以用pgAdmin的import功能來完成。然而最近我在使用匯入功能時卻遭遇很多問題,讓匯入無法正常進行。以下歸納常見的幾個問題以及其解決方法。
(more...)
Comments