顯示具有 Data Mining 標籤的文章。顯示所有文章

資料預測級導論：分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

布丁布丁吃布丁

10月 03, 2017 0 Comments Course Data Mining Presentation Series/Big Data Analysis Course

資料預測級導論：分類的處理流程 / Introduction to Data Prediction: Procedure of Classification

這是巨量資料探勘與統計應用課程的投影片「資料預測級導論：分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論，這份投影片是為了銜接前面的「資料檢定級」與後面的概念，資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇，都是為了獲得一個「答案」，特別適用於「類別」類型的答案，這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型，可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。

AI能夠告訴你未來？用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

布丁布丁吃布丁

9月 26, 2017 19 Comments Data Mining Software/Weka

AI能夠告訴你未來？用Weka實作多變項時間序列預測 / Time Series Forecasting with Weka

這是本學期我在政大圖檔所專題討論課程中介紹的內容，主題是「用Weka實作多變項時間序列預測」。傳統的時間序列分析(time series analysis)著重於以統計為主的ARIMA模型，分析過程著重於模型的選擇與判斷，一般僅以時間變項進行預測。Weka則是從資料探勘中迴歸(regression)的角度來實作時間序列預測(time series forecasting)，使用的預測演算法可以是線性迴歸(Linear Regression)、類神經網路預測(MultilayerPerceptron)、或支持向量機迴歸(SMOreg)，甚至可以加入疊加變項(overlay)，就能實作多變項的時間序列預測。

本文除了放上我在專題演講的投影片之外，也將使用Weka進行時間序列預測的做法整理出來，供大家一步一步操作、學習。

AI解籤不用1秒，廟公要失業了嗎？Weka的中文自動評分：預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

布丁布丁吃布丁

9月 18, 2017 3 Comments Data Mining Software/GoogleDoc Software/Weka

AI解籤不用1秒，廟公要失業了嗎？Weka的中文自動評分：預測詩籤的等第 / Automatic Chinese Text Scoring in Weka: Rating Fortune Slips

人工智慧要為非結構性的文本型資料評分，要評到精準是很難，但如果只是簡單地給個評分的話，其實是非常簡單的事情，不需要寫任何程式碼。繼我之前寫的「Weka試跑文本評分」，這次我一樣直接使用Weka來為「雷雨詩籤百首」中的籤文與等第建模，做到Weka看到「一舟行貨好招邀積少成多自富饒常把他人比自己管須日後勝今朝」就知道是「上吉」。此外，還能透過特徵選取(select attributes)功能來篩選出影響等第的籤文關鍵字喔。

聚焦於你感興趣的關聯規則：Weka的HotSpot演算法 / Association Rule Mining with Specific Right-Hand-Side: HotSpot Algorithm in Weka

布丁布丁吃布丁

8月 24, 2017 27 Comments Data Mining Software/Weka

聚焦於你感興趣的關聯規則：Weka的HotSpot演算法 / Association Rule Mining with Specific Right-Hand-Side: HotSpot Algorithm in Weka

說到資料探勘(data mining)，大部分的應用都是指購物籃分析(market basket analysis)中的關聯規則分析(association rule mining)，也就是Apriori演算法。但傳統的Apriori有著許多限制：難以處理多維度資料、不能處理連續型的數值資料，最重要的是，研究者所感興趣的結果往往難以被探勘出來。後來我找到了另一種關聯規則分析演算法：HotSpot，它不僅可以解決上述Apriori所遭遇的問題，我還用AutoIT額外撰寫了資料整理的程式，使得HotSpot能夠呈現更多我們所關住的結果。

循序樣式探勘：以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

布丁布丁吃布丁

8月 23, 2017 15 Comments Data Mining Programming/Python

循序樣式探勘：以Python的PrefixSpan實作 / Implement Sequential Pattern Mining with PrefixSpan in Python

我之前用R的arulesSequences來做循序樣式探勘，但是在輸入的資料量過大的時候，arulesSequences沒辦法順利運作。這個問題就是循序樣式探勘AprioriAll需要產生候選項目的後遺症。所以我另外找尋了不需要產生候選項目的循序樣式探勘演算法，最後找到的就是以Python實作的PrefixSpan。我參考chuanconggao發佈在GitHub的PrefixSpan-py專案，調整它輸入資料跟輸出結果的方式，把它整理成更容易在Windows環境下使用。所有程式碼都公開在GitHub的保存庫「PrefixSpan-py」上，歡迎有需要做循序樣式探勘的朋友來使用。

以AutoIT實作Weka預測執行檔 / Making Predictions with Weka Executable File: an AutoIT Application

布丁布丁吃布丁

6月 25, 2017 0 Comments AutoIt Data Mining OS/Windows Programming/AutoIt Software/Weka Software/Windows

以AutoIT實作Weka預測執行檔 / Making Predictions with Weka Executable File: an AutoIT Application

繼前一篇使用指令列來操作Weka進行預測之後，這一篇就要用AutoIT來操作Weka進行預測，並以AutoIT將預測結果傳送給其他程式，例如傳送到Google表單中記錄預測結果。

大家一起來預測吧！使用Weka指令列實作預測功能 / Making Predictions with Weka in Command Line

布丁布丁吃布丁

6月 25, 2017 6 Comments Data Mining OS/Windows Software/Weka

大家一起來預測吧！使用Weka指令列實作預測功能 / Making Predictions with Weka in Command Line

Weka除了用Explorer來預測未知之外，還能透過指令列直接操作，以便跟其他程式，像是AutoIT的Run()進行整合。這篇就是要示範如何使用指令列來操作Weka進行SMO跟LibSVM兩種分類器的預測。

如何在Weka中顯示中文：調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

布丁布丁吃布丁

6月 23, 2017 17 Comments Data Mining OS/Windows Software/Weka Software/Windows

如何在Weka中顯示中文：調整檔案編碼為UTF8 / How to Process Chinese Data in Weka: Set fileEncoding to utf-8

在Windows中使用Weka來處理非英文語系的資料時會變成亂碼，這是因為它的參數設定預設為Cp1252 (拉丁字母字元編碼)。只要在Weka設定檔RunWeka.ini中修改fileEncoding為utf-8，就能讓Weka順利顯示中文。

試作歷程序列資料的動態生成模型：結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

布丁布丁吃布丁

6月 19, 2017 2 Comments Data Mining Programming/JavaScript Work/Widget

試作歷程序列資料的動態生成模型：結合多層次感知機與增強學習的應用 / Developing a Dynamic Path Generator base on Users’ Activity Logs: a MLP and Reinforcement Learning Approach

繼前一篇談完歷程資料的分析方式之後，本篇則是從機器學習的角度切入，藉由分析不同背景使用者的操作歷程序列資料，並將對歷程結果的評價作為輸入資料，以此訓練一套懂得不同特質使用者會如何操作的多層次感知機(MLP)預測模型。接著再以任意一位使用者為背景，用此模型來生成一套評價較好的操作序列路徑。為了避免模形產生的路徑陷入無限迴圈，本篇以增強學習(Reinforcement learning)來懲罰會走到迴圈的序列路徑。

結果最後產生的序列路徑過度受到增強學習的影響，使得使用者的背景因素與歷程評價的影響變得微乎其微。這篇是為了記錄這一連串開發的過程、思維，以及未來的改進方向。這整套系統皆以JavaScript網頁開發，全部原始碼與資料都放在GitHub上，線上展示網址為： https://pulipulichen.github.io/dynamic-generative-path/ 。

談歷程資料分析：從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

布丁布丁吃布丁

6月 18, 2017 1 Comments Data Mining Research Research/Sequential Analysis Software/R Software/SPSS Software/Weka Statistics

談歷程資料分析：從摘要統計到個別序列 / Analyzing Activity Logs: From Summary Statistics to Individual Sequence

最近我試著應用機器學習到歷程序列資料的分析上，想說在這裡記錄一下進度與想法。不過在講歷程序列資料的分析之前，我想有必要先跟大家回顧一下所謂的歷程資料(activity logs)中的摘要統計與個別序列的差別，以及分析歷程統計資料和歷程序列資料的可能做法，這樣才能說明為什麼我要將機器學習應用在歷程序列資料分析上。這些方法跨了相當多領域，有些技術解釋與名詞選擇不甚嚴謹，望各位先進不吝指教。

Weka試跑文本評分 / Text Rating Test With Weka

布丁布丁吃布丁

6月 09, 2017 1 Comments Data Mining Software/Weka

Weka試跑文本評分 / Text Rating Test With Weka

最近我在準備教授用Weka作文本分類的時候，就順帶的一直想試試理論上可以作、但一直沒資料的「文本評分」功能。文本分類主要的分類目標(class)是「類別資料」，而文本評分的分類目標就是「連續資料」，也就是分數。於是我就順手把「Reuters-21578 Text Categorization Collection」的新聞分類轉換成數字的評分，並整合StringToWordVector篩選器跟SMOreg分類器以迴歸的方式計算評分。其中StringToWordVector需要經過調整才能讓分類器順利運作，這邊我記錄一下大致上的做法。

你也懂初音？Weka辨識彩色圖片的分類與預測 / Colorful Images Classification with Weka

布丁布丁吃布丁

6月 05, 2017 0 Comments Data Mining Series/Weka Image Classification Software/Weka

你也懂初音？Weka辨識彩色圖片的分類與預測 / Colorful Images Classification with Weka

在「從圖片抽取量化特徵：Weka的ImageFilter」這篇的介紹之後，我們知道怎麼利用Weka的Image Filter從圖片中抽取量化特徵，並進一步用於圖片分類上。本篇我們就以Terrence所撰寫的「用tflearn來做深度學習辨識初音」中分辨初音的例子，用Weka來實作看看吧。

從圖片抽取量化特徵：Weka的ImageFilter / Extract Features from an Image File with Weka’s ImageFilter

布丁布丁吃布丁

6月 05, 2017 5 Comments Data Mining Series/Weka Image Classification Software/Weka

從圖片抽取量化特徵：Weka的ImageFilter / Extract Features from an Image File with Weka’s ImageFilter

在「不寫程式也能預測未知！用Weka分類模型來預測未知案例」這篇介紹了如何用Weka來進行預測，不過基本上像是Weka這樣的資料探勘工具處理的都是經過量化的數值或分類資料，如果今天遇到的是非結構的資料，像是圖片的話，我們要怎麼處理呢？這就要藉助Weka的「Image Filter」套件，來從非結構化的圖片檔案中抽取量化的特徵資料囉。

Weka下載與套件安裝教學 / How to download Weka and Install Package

布丁布丁吃布丁

6月 04, 2017 6 Comments Data Mining Software/Weka

Weka下載與套件安裝教學 / How to download Weka and Install Package

最近很多機會會使用到Weka，在此我想要整理一下Weka的下載位置，以及在Weka中安裝套件的方法，以供其他文章連結使用。

循序樣式探勘：以R的arulesSequences實作 / Sequential Pattern Mining in R

布丁布丁吃布丁

1月 14, 2017 10 Comments 研究方法電腦軟體/R Data Mining Programming/R

循序樣式探勘：以R的arulesSequences實作 / Sequential Pattern Mining in R

循序樣式探勘是一種用來找出「大部分的人都有的行為模式」的有效方法。我以前用過JavaScript寫過循序樣式探勘工具，也用Weka的GSP來實作過，最近我又發現可以用R的arulesSequences來輕鬆完成循序樣式探勘的工作。以下我會介紹循序樣式探勘的概念，並分享用R來實作的腳本。

Weka的K Means分群演算法使用教學：SimpleKMeans / Clustering with Weka: SimpleKMeans

布丁布丁吃布丁

12月 05, 2016 33 Comments 研究方法 Data Mining Software/Weka

Weka的K Means分群演算法使用教學：SimpleKMeans / Clustering with Weka: SimpleKMeans

用資料探勘的分群演算法來為樣本分群是一種基本的分析方式。本篇就以「Data mining with WEKA, Part 2: Classification and clustering」這篇為例子，介紹如何使用K Means演算法來分群。

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

布丁布丁吃布丁

5月 19, 2016 45 Comments 研究方法電腦軟體 Data Mining Software/Weka

Weka決策樹分類法使用教學 / Weka J48 Decision Tree Classification Tutorial

決策樹是資料探勘(data mining) 分類 (classifition)中的代表性演算法。它是一種監督式演算法，一般是用於預測、建立模型上。它可以協助我們將多維度的大量資料分析成為一些簡單易懂的規則。舉例來說，我們要如何判斷一個職缺好不好呢？我們可以從合約期間、薪資、工時、休假等候選屬性來判斷。決策樹可以幫你分析出第一年薪資會是判斷工作好壞的重要屬性，其次是法定假日。

這兒先不談決策樹背後複雜的演算法，我們可以直接使用開放原始碼的Weka就能簡單地建置一顆決策樹。這篇就是教大家如何使用Weka來建置決策樹的操作教學。

訂閱：文章 (Atom)