:::

整合PostgreSQL資料庫的R中文文本探勘 / Chinese Text Mining with R and PostgreSQL

整合PostgreSQL資料庫的R中文文本探勘 / Chinese Text Mining with R and PostgreSQL

image

R的文本探勘(text mining)大多是基於純文字檔案進行,而我將文本探勘處理的資料輸入、輸出儲存整合到PostgreSQL資料庫,讓R的文本探勘能夠更容易跟其他系統整合。這篇文本探勘中進行了HTML內文擷取、新詞加入與斷詞處理、符號過濾、英數字過濾、停用字過濾、最小詞彙長度與頻率過濾等處理步驟。以下介紹系統架構跟R Script的設定,並以我的網頁為資料來源示範如何進行文本探勘。

(more...)

開箱即用的R運作環境!RStudio Server OpenVZ虛擬機器分享 / Standalone R Environment: RStudio Server in OpenVZ Virtual Machine

布丁布丁吃布丁

開箱即用的R運作環境!RStudio Server OpenVZ虛擬機器分享 / Standalone R Environment: RStudio Server in OpenVZ Virtual Machine

image

我以OpenVZ虛擬機器建立了一個獨立運作的RStudio Server,架設起來之後就能夠直接用網頁來開啟可以正常運作的R環境。它不僅預先裝好了文字探勘與資料庫所需要的套件,而且不會受到在Windows環境下處理中文發生亂碼問題的限制。架設這樣的環境費時費工,所以我決定將它做成開箱即可用的OpenVZ虛擬機器,在此跟大家分享。

(more...)

R的文字雲怎麼都是□亂碼?wordcloud套件需要中文字形 / Why R’s wordcloud draws Chinese in □?

布丁布丁吃布丁

R的文字雲怎麼都是□亂碼?wordcloud套件需要中文字形 / Why R’s wordcloud draws Chinese in □?

image

這篇只是很短地記錄解決在R中使用wordcloud套件畫不出中文文字雲的原因與做法。

 

(more...)

R套件怎麼裝不起來?Ubuntu中舊版R安裝套件的方法 / How to install archived packages in old R version?

布丁布丁吃布丁

R套件怎麼裝不起來?Ubuntu中舊版R安裝套件的方法 / How to install archived packages in old R version?

image

因為Windowd的R處理中文的時候無法避免亂碼的問題,所以我改用OpenVZ架起Ubuntu 14.04 (amd64),並在上面安裝RRStudio Server來運作。然而這版Ubuntu上面安裝的R版本為3.0.2,並非最新的3.0.3,大部分套件都不能正常安裝。儘管如此,我們還是可以透過手動的程序來下載、安裝舊版的套件。這篇以RMySQL套件為例,教大家如何在舊版R中安裝對應版本的舊版套件,而且一併處理系統套件相依的問題。

(more...)

CNKI臺灣網站可以用Zotero了!CNKI.sris.com.tw轉譯器分享 / Import Bibliography and PDF from CNKI via Zotero

布丁布丁吃布丁

CNKI臺灣網站可以用Zotero了!CNKI.sris.com.tw轉譯器分享 / Import Bibliography and PDF from CNKI via Zotero

image

這是供ZoteroCNKI中國知網臺灣網站匯入書目的轉譯器(translator),它可以讓Zotero直接在CNKI臺灣網站中匯入文獻的書目資料。原本Zotero就有CNKI的轉譯器,但是它跟CNKI臺灣網站(cnki.sris.com.tw)使用的網域不同,所以我將原本的轉譯器改寫之後分享。希望能夠藉此促進我國研究者使用Zotero的的意願。

(more...)

如何解決 CSV匯入PostgreSQL發生的錯誤? / How to resolve the problems while importing CSV data into PostgreSQL?

如何解決 CSV匯入PostgreSQL發生的錯誤? / How to resolve the problems while importing CSV data into PostgreSQL?

image

PostgreSQL有個COPY指令可以將csv格式的文件快速匯入資料表中,而這個操作可以用pgAdminimport功能來完成。然而最近我在使用匯入功能時卻遭遇很多問題,讓匯入無法正常進行。以下歸納常見的幾個問題以及其解決方法。

(more...)

SPSS列聯表轉換成可分析資料:觀察值加權 / How to convert Contingency Table into analyzable data in SPSS: Weight Cases

布丁布丁吃布丁

SPSS列聯表轉換成可分析資料:觀察值加權 / How to convert Contingency Table into analyzable data in SPSS: Weight Cases

image

我們在研究報告上看到的數據資料通常都是已經整理好的列聯表 (contingency table),這些已經整理好的資料又稱為邊際分佈。如果我們要在SPSS中以這些資料進行次級分析的話,就得使用「觀察值加權」的功能,將資料調整成可分析的資料格式,再來繼續SPSS的分析。以下就SPSS 21的操作介面來說明如何設定「觀察值加權」。

(more...)