:::
顯示具有 Data Mining 標籤的文章。 顯示所有文章

資料預測級導論: 分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

資料預測級導論: 分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

image

這是巨量資料探勘與統計應用課程的投影片「資料預測級導論: 分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論,這份投影片是為了銜接前面的「資料檢定級」與後面的概念,資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇,都是為了獲得一個「答案」,特別適用於「類別」類型的答案,這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型,可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。

(more...)

AI能夠告訴你未來?用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

布丁布丁吃布丁

AI能夠告訴你未來?用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

image

這是本學期我在政大圖檔所專題討論課程中介紹的內容,主題是「用Weka實作多變項時間序列預測」。傳統的時間序列分析(time series analysis)著重於以統計為主的ARIMA模型,分析過程著重於模型的選擇與判斷,一般僅以時間變項進行預測。Weka則是從資料探勘中迴歸(regression)的角度來實作時間序列預測(time series forecasting),使用的預測演算法可以是線性迴歸(Linear Regression)、類神經網路預測(MultilayerPerceptron)、或支持向量機迴歸(SMOreg),甚至可以加入疊加變項(overlay),就能實作多變項的時間序列預測。

本文除了放上我在專題演講的投影片之外,也將使用Weka進行時間序列預測的做法整理出來,供大家一步一步操作、學習。

(more...)

AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

AI解籤不用1秒,廟公要失業了嗎?Weka的中文自動評分:預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

image

人工智慧要為非結構性的文本型資料評分,要評到精準是很難,但如果只是簡單地給個評分的話,其實是非常簡單的事情,不需要寫任何程式碼。繼我之前寫的「Weka試跑文本評分」,這次我一樣直接使用Weka來為「雷雨詩籤百首」中的籤文與等第建模,做到Weka看到「一舟行貨好招邀 積少成多自富饒 常把他人比自己 管須日後勝今朝」就知道是「上吉」。此外,還能透過特徵選取(select attributes)功能來篩選出影響等第的籤文關鍵字喔。

(more...)

聚焦於你感興趣的關聯規則:Weka的HotSpot演算法 / Association Rule Mining with Specific Right-Hand-Side: HotSpot Algorithm in Weka

布丁布丁吃布丁

聚焦於你感興趣的關聯規則:Weka的HotSpot演算法 / Association Rule Mining with Specific Right-Hand-Side: HotSpot Algorithm in Weka

image

說到資料探勘(data mining),大部分的應用都是指購物籃分析(market basket analysis)中的關聯規則分析(association rule mining),也就是Apriori演算法。但傳統的Apriori有著許多限制:難以處理多維度資料、不能處理連續型的數值資料,最重要的是,研究者所感興趣的結果往往難以被探勘出來。後來我找到了另一種關聯規則分析演算法:HotSpot,它不僅可以解決上述Apriori所遭遇的問題,我還用AutoIT額外撰寫了資料整理的程式,使得HotSpot能夠呈現更多我們所關住的結果。

(more...)

循序樣式探勘:以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

布丁布丁吃布丁

循序樣式探勘:以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

image

我之前用R的arulesSequences來做循序樣式探勘,但是在輸入的資料量過大的時候,arulesSequences沒辦法順利運作。這個問題就是循序樣式探勘AprioriAll需要產生候選項目的後遺症。所以我另外找尋了不需要產生候選項目的循序樣式探勘演算法,最後找到的就是以Python實作的PrefixSpan。我參考chuanconggao發佈在GitHub的PrefixSpan-py專案,調整它輸入資料跟輸出結果的方式,把它整理成更容易在Windows環境下使用。所有程式碼都公開在GitHub的保存庫「PrefixSpan-py」上,歡迎有需要做循序樣式探勘的朋友來使用。

(more...)

以AutoIT實作Weka預測執行檔 / Making Predictions with Weka Executable File: an AutoIT Application

以AutoIT實作Weka預測執行檔 / Making Predictions with Weka Executable File: an AutoIT Application

image

繼前一篇使用指令列來操作Weka進行預測之後,這一篇就要用AutoIT來操作Weka進行預測,並以AutoIT將預測結果傳送給其他程式,例如傳送到Google表單中記錄預測結果。

(more...)

大家一起來預測吧!使用Weka指令列實作預測功能 / Making Predictions with Weka in Command Line

大家一起來預測吧!使用Weka指令列實作預測功能 / Making Predictions with Weka in Command Line

image

Weka除了用Explorer來預測未知之外,還能透過指令列直接操作,以便跟其他程式,像是AutoIT的Run()進行整合。這篇就是要示範如何使用指令列來操作Weka進行SMOLibSVM兩種分類器的預測。

(more...)

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

如何在Weka中顯示中文:調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

image

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼,這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8,就能讓Weka順利顯示中文。

(more...)

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

試作歷程序列資料的動態生成模型:結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

image

繼前一篇談完歷程資料的分析方式之後,本篇則是從機器學習的角度切入,藉由分析不同背景使用者的操作歷程序列資料,並將對歷程結果的評價作為輸入資料,以此訓練一套懂得不同特質使用者會如何操作的多層次感知機(MLP)預測模型。接著再以任意一位使用者為背景,用此模型來生成一套評價較好的操作序列路徑。為了避免模形產生的路徑陷入無限迴圈,本篇以增強學習(Reinforcement learning)來懲罰會走到迴圈的序列路徑。

結果最後產生的序列路徑過度受到增強學習的影響,使得使用者的背景因素與歷程評價的影響變得微乎其微。這篇是為了記錄這一連串開發的過程、思維,以及未來的改進方向。這整套系統皆以JavaScript網頁開發,全部原始碼與資料都放在GitHub上,線上展示網址為: https://pulipulichen.github.io/dynamic-generative-path/

(more...)

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

談歷程資料分析:從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

image

最近我試著應用機器學習到歷程序列資料的分析上,想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前,我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別,以及分析歷程統計資料和歷程序列資料的可能做法,這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域,有些技術解釋與名詞選擇不甚嚴謹,望各位先進不吝指教。

(more...)

Weka試跑文本評分 / Text Rating Test With Weka

布丁布丁吃布丁

Weka試跑文本評分 / Text Rating Test With Weka

image

最近我在準備教授用Weka作文本分類的時候,就順帶的一直想試試理論上可以作、但一直沒資料的「文本評分」功能。文本分類主要的分類目標(class)是「類別資料」,而文本評分的分類目標就是「連續資料」,也就是分數。於是我就順手把「Reuters-21578 Text Categorization Collection」的新聞分類轉換成數字的評分,並整合StringToWordVector篩選器跟SMOreg分類器以迴歸的方式計算評分。其中StringToWordVector需要經過調整才能讓分類器順利運作,這邊我記錄一下大致上的做法。

(more...)

你也懂初音?Weka辨識彩色圖片的分類與預測 / Colorful Images Classification with Weka

你也懂初音?Weka辨識彩色圖片的分類與預測 / Colorful Images Classification with Weka

image

在「從圖片抽取量化特徵:Weka的ImageFilter」這篇的介紹之後,我們知道怎麼利用Weka的Image Filter從圖片中抽取量化特徵,並進一步用於圖片分類上。本篇我們就以Terrence所撰寫的「用tflearn來做深度學習辨識初音」中分辨初音的例子,用Weka來實作看看吧。

(more...)

從圖片抽取量化特徵:Weka的ImageFilter / Extract Features from an Image File with Weka’s ImageFilter

從圖片抽取量化特徵:Weka的ImageFilter / Extract Features from an Image File with Weka’s ImageFilter

image

在「不寫程式也能預測未知!用Weka分類模型來預測未知案例」這篇介紹了如何用Weka來進行預測,不過基本上像是Weka這樣的資料探勘工具處理的都是經過量化的數值或分類資料,如果今天遇到的是非結構的資料,像是圖片的話,我們要怎麼處理呢?這就要藉助Weka的「Image Filter」套件,來從非結構化的圖片檔案中抽取量化的特徵資料囉。

(more...)

Weka下載與套件安裝教學 / How to download Weka and Install Package

布丁布丁吃布丁

Weka下載與套件安裝教學 / How to download Weka and Install Package

image

最近很多機會會使用到Weka,在此我想要整理一下Weka的下載位置,以及在Weka中安裝套件的方法,以供其他文章連結使用。

(more...)

循序樣式探勘: 以R的arulesSequences實作 / Sequential Pattern Mining in R

循序樣式探勘: 以R的arulesSequences實作 / Sequential Pattern Mining in R

image

循序樣式探勘是一種用來找出「大部分的人都有的行為模式」的有效方法。我以前用過JavaScript寫過循序樣式探勘工具,也用Weka的GSP來實作過,最近我又發現可以用R的arulesSequences來輕鬆完成循序樣式探勘的工作。以下我會介紹循序樣式探勘的概念,並分享用R來實作的腳本。

(more...)

Weka的K Means分群演算法使用教學:SimpleKMeans / Clustering with Weka: SimpleKMeans

Weka的K Means分群演算法使用教學:SimpleKMeans / Clustering with Weka: SimpleKMeans

image

用資料探勘的分群演算法來為樣本分群是一種基本的分析方式。本篇就以「Data mining with WEKA, Part 2: Classification and clustering」這篇為例子,介紹如何使用K Means演算法來分群。

(more...)

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

image

決策樹是資料探勘(data mining) 分類 (classifition)中的代表性演算法。它是一種監督式演算法,一般是用於預測、建立模型上。它可以協助我們將多維度的大量資料分析成為一些簡單易懂的規則。舉例來說,我們要如何判斷一個職缺好不好呢?我們可以從合約期間、薪資、工時、休假等候選屬性來判斷。決策樹可以幫你分析出第一年薪資會是判斷工作好壞的重要屬性,其次是法定假日。

這兒先不談決策樹背後複雜的演算法,我們可以直接使用開放原始碼的Weka就能簡單地建置一顆決策樹。這篇就是教大家如何使用Weka來建置決策樹的操作教學。

(more...)