:::
顯示具有 Software/R 標籤的文章。 顯示所有文章

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

image

最近我試著應用機器學習到歷程序列資料的分析上,想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前,我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別,以及分析歷程統計資料和歷程序列資料的可能做法,這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域,有些技術解釋與名詞選擇不甚嚴謹,望各位先進不吝指教。

(more...)

用R畫箱型圖 / Draw Box-plot with R

布丁布丁吃布丁

用R畫箱型圖 / Draw Box-plot with R

image

今天上課的時候老師教了箱型圖(Box-plot、盒型圖、盒鬚圖),可以有效比較不同資料集的分佈。我研究了一下怎麼用R來畫箱型圖,整理一個簡單的R Script,在此跟大家分享。

(more...)

學習R的感想 / About Learning R

布丁布丁吃布丁

學習R的感想 / About Learning R

image

這篇閒聊這幾天我對R的研究過程,一篇初學者的感想而已。

(more...)

PHP也可以用R!R Remote API / R Remote API for PHP

PHP也可以用R!R Remote API / R Remote API for PHP

image

我在這篇為之前發佈的RStudio Server加上了可供遠端使用的R Remote API,我們只要把R Script以POST方式傳到伺服器,就能夠取得R的計算結果或是圖片。R Remote API的使用分成伺服器端的架設、客戶端的使用、R Script的設置。R Remote API已經發佈到GitHub供大家使用:

(more...)

匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R

布丁布丁吃布丁

匯出文字探勘結果:用R畫文字雲 / Draw Word Cloud in R

image

在「整合PostgreSQL資料庫的R中文文本探勘」我們用R對文本進行斷詞分析處理,最後將結果儲存到資料庫中。這篇我們就要用儲存在資料庫的結果來繪製文字雲圖片。

(more...)

整合PostgreSQL資料庫的R中文文本探勘 / Chinese Text Mining with R and PostgreSQL

整合PostgreSQL資料庫的R中文文本探勘 / Chinese Text Mining with R and PostgreSQL

image

R的文本探勘(text mining)大多是基於純文字檔案進行,而我將文本探勘處理的資料輸入、輸出儲存整合到PostgreSQL資料庫,讓R的文本探勘能夠更容易跟其他系統整合。這篇文本探勘中進行了HTML內文擷取、新詞加入與斷詞處理、符號過濾、英數字過濾、停用字過濾、最小詞彙長度與頻率過濾等處理步驟。以下介紹系統架構跟R Script的設定,並以我的網頁為資料來源示範如何進行文本探勘。

(more...)

開箱即用的R運作環境!RStudio Server OpenVZ虛擬機器分享 / Standalone R Environment: RStudio Server in OpenVZ Virtual Machine

布丁布丁吃布丁

開箱即用的R運作環境!RStudio Server OpenVZ虛擬機器分享 / Standalone R Environment: RStudio Server in OpenVZ Virtual Machine

image

我以OpenVZ虛擬機器建立了一個獨立運作的RStudio Server,架設起來之後就能夠直接用網頁來開啟可以正常運作的R環境。它不僅預先裝好了文字探勘與資料庫所需要的套件,而且不會受到在Windows環境下處理中文發生亂碼問題的限制。架設這樣的環境費時費工,所以我決定將它做成開箱即可用的OpenVZ虛擬機器,在此跟大家分享。

(more...)

R的文字雲怎麼都是□亂碼?wordcloud套件需要中文字形 / Why R’s wordcloud draws Chinese in □?

布丁布丁吃布丁

R的文字雲怎麼都是□亂碼?wordcloud套件需要中文字形 / Why R’s wordcloud draws Chinese in □?

image

這篇只是很短地記錄解決在R中使用wordcloud套件畫不出中文文字雲的原因與做法。

 

(more...)

R套件怎麼裝不起來?Ubuntu中舊版R安裝套件的方法 / How to install archived packages in old R version?

布丁布丁吃布丁

R套件怎麼裝不起來?Ubuntu中舊版R安裝套件的方法 / How to install archived packages in old R version?

image

因為Windowd的R處理中文的時候無法避免亂碼的問題,所以我改用OpenVZ架起Ubuntu 14.04 (amd64),並在上面安裝RRStudio Server來運作。然而這版Ubuntu上面安裝的R版本為3.0.2,並非最新的3.0.3,大部分套件都不能正常安裝。儘管如此,我們還是可以透過手動的程序來下載、安裝舊版的套件。這篇以RMySQL套件為例,教大家如何在舊版R中安裝對應版本的舊版套件,而且一併處理系統套件相依的問題。

(more...)

用R實作時間序列的交叉相關分析 / Cross Correlation with R

布丁布丁吃布丁

用R實作時間序列的交叉相關分析 / Cross Correlation with R

image

如果要看兩個時間序列之間是否彼此有所影響,例如X序列可能會是Y序列的領先指標。這樣子我們可以用R的ccf()函數來進行交互分析。做法參考自「Intuition behind cross-correlation function interpretation vs. correlation of lagged time series」跟「Melbourne’s Weather and Cross Correlations」這篇,以下簡單記錄一下做法。

(more...)

如何用推論統計驗證「PokeStop左轉可以提升寶貝球出現率」:使用R雲端資料分析暨引導系統 / How to Test “Get More Balls while Turning PokeStop Left” with R-web

布丁布丁吃布丁

如何用推論統計驗證「PokeStop左轉可以提升寶貝球出現率」:使用R雲端資料分析暨引導系統 / How to Test “Get More Balls while Turning PokeStop Left” with R-web

image

許多文組的學生都對統計敬而遠之,但其實統計不僅跟我們的生活息息相關,甚至我們可以輕易使用統計來解決生活中的很多問題。而使用統計也不需要安裝SPSS,我們只要用免費的「雲端資料分析暨引導系統」(R-Web)就能夠做完大部分的工作。

這次藉著寶可夢熱潮,我們來就來實際驗證看看「PokeStop左轉可以提升寶貝球出現率」這個消息吧。

(more...)