匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R
匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R
在「整合PostgreSQL資料庫的R中文文本探勘」我們用R對文本進行斷詞分析處理,最後將結果儲存到資料庫中。這篇我們就要用儲存在資料庫的結果來繪製文字雲圖片。
(more...)11月 08, 2016 0 Comments Programming/R Software/R
在「整合PostgreSQL資料庫的R中文文本探勘」我們用R對文本進行斷詞分析處理,最後將結果儲存到資料庫中。這篇我們就要用儲存在資料庫的結果來繪製文字雲圖片。
(more...)R的文本探勘(text mining)大多是基於純文字檔案進行,而我將文本探勘處理的資料輸入、輸出儲存整合到PostgreSQL資料庫,讓R的文本探勘能夠更容易跟其他系統整合。這篇文本探勘中進行了HTML內文擷取、新詞加入與斷詞處理、符號過濾、英數字過濾、停用字過濾、最小詞彙長度與頻率過濾等處理步驟。以下介紹系統架構跟R Script的設定,並以我的網頁為資料來源示範如何進行文本探勘。
(more...)11月 07, 2016 3 Comments Programming/R Software/R
我以OpenVZ虛擬機器建立了一個獨立運作的RStudio Server,架設起來之後就能夠直接用網頁來開啟可以正常運作的R環境。它不僅預先裝好了文字探勘與資料庫所需要的套件,而且不會受到在Windows環境下處理中文發生亂碼問題的限制。架設這樣的環境費時費工,所以我決定將它做成開箱即可用的OpenVZ虛擬機器,在此跟大家分享。
(more...)11月 06, 2016 0 Comments Programming/R Software/R
這篇只是很短地記錄解決在R中使用wordcloud套件畫不出中文文字雲的原因與做法。
(more...)
11月 06, 2016 3 Comments Programming/R Software/R
因為Windowd的R處理中文的時候無法避免亂碼的問題,所以我改用OpenVZ架起Ubuntu 14.04 (amd64),並在上面安裝R跟RStudio Server來運作。然而這版Ubuntu上面安裝的R版本為3.0.2,並非最新的3.0.3,大部分套件都不能正常安裝。儘管如此,我們還是可以透過手動的程序來下載、安裝舊版的套件。這篇以RMySQL套件為例,教大家如何在舊版R中安裝對應版本的舊版套件,而且一併處理系統套件相依的問題。
(more...)11月 05, 2016 4 Comments Software/Zotero Zotero
這是供Zotero從CNKI中國知網臺灣網站匯入書目的轉譯器(translator),它可以讓Zotero直接在CNKI臺灣網站中匯入文獻的書目資料。原本Zotero就有CNKI的轉譯器,但是它跟CNKI臺灣網站(cnki.sris.com.tw)使用的網域不同,所以我將原本的轉譯器改寫之後分享。希望能夠藉此促進我國研究者使用Zotero的的意願。
(more...)11月 05, 2016 0 Comments Software/PostgreSQL Software/PostreSQL
PostgreSQL有個COPY指令可以將csv格式的文件快速匯入資料表中,而這個操作可以用pgAdmin的import功能來完成。然而最近我在使用匯入功能時卻遭遇很多問題,讓匯入無法正常進行。以下歸納常見的幾個問題以及其解決方法。
(more...)11月 03, 2016 0 Comments 研究方法 Statistics
我們在研究報告上看到的數據資料通常都是已經整理好的列聯表 (contingency table),這些已經整理好的資料又稱為邊際分佈。如果我們要在SPSS中以這些資料進行次級分析的話,就得使用「觀察值加權」的功能,將資料調整成可分析的資料格式,再來繼續SPSS的分析。以下就SPSS 21的操作介面來說明如何設定「觀察值加權」。
(more...)10月 30, 2016 3 Comments 研究方法 Programming/PHP
今年9月的時候,我到新竹教育大學學習與科技研究所跟同學們分享序列分析的心得。這一份投影片基於「行為編碼與序列分析」這篇的修改,再加入了Alison & Liker的算法來計算z分數。因為加入了Alison & Liker的計算方式,我重新做了PHP版本的序列分析計算器,在此也一樣開放原始碼供大家使用。
(more...)10月 23, 2016 0 Comments 研究方法 Software/Office Statistics
指數平滑法是時間序列分析中用來預測的一種常用的做法。該做法是改良自移動平均法,將越久遠的觀察值對預測的影響降低。指數平滑法可以直接用Excel的「資料分析」工具來計算,我就根據「数据建模与决策」中「第11章 时间序列分析和预测」的介紹來練習一下吧。
(more...)
Comments