:::
顯示具有 Data Mining 標籤的文章。 顯示所有文章

鐵達尼號生存者資料集 / Dataset: Titanic Survived

布丁布丁吃布丁

鐵達尼號生存者資料集 / Dataset: Titanic Survived

2023-0712-221149.png

這份資料集改編自Kaggle所發佈的鐵達尼號生存者資料集。可作為機器學習練習使用。

(more...)

線上購物資料集 / Dataset: Online Shopping

線上購物資料集 / Dataset: Online Shopping

2023-0711-011859.png

這份資料集改編自Sakar與Kastro在2018年發佈的線上購物顧客購買意圖資料集。可作為機器學習練習使用。

(more...)

收入普查資料集 / Dataset: Census Income

布丁布丁吃布丁

收入普查資料集 / Dataset: Census Income

2023-0711-002121.png

這份資料集改編自Becker與Kohavi在1996年發佈的人口普查收入資料集。可作為機器學習練習使用。

(more...)

教學意見回饋資料集 / Dataset: Student Evaluation

教學意見回饋資料集 / Dataset: Student Evaluation

2023-0710-231146.png

這份資料集改編自Fokoue與Gunduz在2013年發佈的土耳其安卡拉加齊大學學生教學意見回饋資料集。可作為機器學習練習使用。

(more...)

銀行行銷資料集 / Dataset: Bank Marketing

銀行行銷資料集 / Dataset: Bank Marketing

2023-0710-222832.png

這份資料集改編自Moro等人在2012年發佈的銀行行銷資料集。可作為機器學習練習使用。

(more...)

學生資料集 / Dataset: Student Performance

布丁布丁吃布丁

學生資料集 / Dataset: Student Performance

2023-0709-175712.png

這是修改自Paulo Cortez所發佈的「Student Performance的資料集。我將資料集調整後用於講課。

(more...)

TextRank簡介 / Introduction to TextRank

TextRank簡介 / Introduction to TextRank

3-cover-TextRank_Introduction_to_TextRank.png

哈囉,大家最近在吃什麼呢?這裡是思考傳統摘要與自動化摘要之間有何異同的布丁。這篇是我之前介紹自動文字摘要演算法TextRank的10分鐘簡短投影片,並附上實作可以使用的Python腳本,提供給有需要的朋友使用。

(more...)

發掘模型背後的知識:子群組探勘 / Knowledge extraction beyond the AI Models: Subgroup Discovery

發掘模型背後的知識:子群組探勘 / Knowledge extraction beyond the AI Models: Subgroup Discovery

5-cover-Introduction_to_Subgroup_Discovery2.png

哈囉,大家最近在吃什麼呢?這裡是換了一臺電腦的布丁。這篇是2021年演講的記錄,主題一樣是講述子群組探勘(subgroup discovery)。跟前一篇「子群組探勘簡介」不一樣的是,演講裡面我加入了較多例子,用比較容易理解的方式來介紹子群組探勘。這次也嘗試把演講的錄影放上來做個記錄,提供有需要的同學觀看。

(more...)

子群組探勘簡介 / Introduction to Subgroup Discovery

布丁布丁吃布丁

子群組探勘簡介 / Introduction to Subgroup Discovery

5-cover-Introduction_to_Subgroup_Discovery.png

哈囉,大家最近在吃什麼呢?這裡是思考如何在人工智慧和可解釋性之間取得調和的布丁。我之前介紹過Weka的HotSpot,也介紹過Cortana的特殊模型探勘,而這篇則是介紹這些演算法的基本概念:子群組探勘(Subgroup Discovery)。本篇專欄也在政大人工智慧與數位教育中心的AI專欄發佈喔。

(more...)

Weka簡介與實作:資料探勘的分群、異常偵測、關聯規則探勘、分類 / Practice Data Mining with Weka: Clustering, Outlier Detection, Associations and Classification

Weka簡介與實作:資料探勘的分群、異常偵測、關聯規則探勘、分類 / Practice Data Mining with Weka: Clustering, Outlier Detection, Associations and Classification

11-Weka_Practice_Data_Mining_with_Weka.png

啊囉哈~~這裡是整理投影片整理得超久的布丁。

今天要來談的Weka是知名的資料探勘自由軟體,它含括了資料探勘中的三大議題:分群(clustering)關聯規則探勘(association rule mining)以及分類(classification)。想要學習資料探勘的基本概念,並快速開始進入資料探勘實作的話,Weka是個不需要寫程式也可以輕鬆上手的好方法。

這一篇是我在2019年研習班中講授的課程投影片。這篇的做法改進了我之前製作的「巨量資料探勘與統計應用」課程內容,不僅更加掌握Weka的功能與參數,也直接採用ODS開放文件格式試算表作為練習資料的格式。如果你對資料探勘有興趣的話,不妨也試著一起玩玩看吧。

(more...)

發掘文件中的主題:Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

發掘文件中的主題:Weka分群應用於文本探勘 / Discover the Topic of Text Collection: Text Mining based on Weks's Clustering

5-Weka_Discover_the_Topic_of_Text.png

在以文字撰寫的大量文件中發掘這些文件所共同描述的主題,這類型的技術稱之爲「主題塑模」(Topic Modeling),而資料探勘中的分群就是實作主題塑模的其中一種做法。本篇就來說明如何用開放原始碼資料探勘工具Weka中的層疊式K平均法分群演算法來找出文件中的主題。

(more...)

簡單易用的中英文斷詞和詞性標註:Python-Jieba / Word Segmentation and Part of Speech Anlysis: Python-Jieba

簡單易用的中英文斷詞和詞性標註:Python-Jieba / Word Segmentation and Part of Speech Anlysis: Python-Jieba

要對非結構化的文字資料進行分析,第一件事情是對文字資料抽取結構化的量化數值特徵。除了用「文字探勘分析器」簡單分析字數、句數之外,最常見的分析方式就是斷詞和詞性分析,例如線上中文斷詞工具:Jieba-JS。但Jieba-JS並不能發揮Jieba斷詞器的全部功能,所以我以Python撰寫了簡單易用的斷詞和詞性分析工具Python-Jieba,讓大家不用撰寫程式碼,只要簡單的配置,就能進行中文斷詞和詞性分析,還能夠同時分析中英混雜文本中英文的詞性。

Python-Jieba不只可搭配「非結構化資料分析:文本分類」或「Weka的中文自動評分」等機器學習來使用,更可以用在質性研究的內容分析、文本分析或敘說分析上,先用Python-Jieba找出特定詞性的文本內容來分析。

(more...)

找出你關注的隱含知識:以Cortana做子群組探勘 / Discovery Knowledge in Your Interesting Target: Subgroup Discovery with CORTANA

布丁布丁吃布丁

找出你關注的隱含知識:以Cortana做子群組探勘 / Discovery Knowledge in Your Interesting Target: Subgroup Discovery with CORTANA

image

聚焦於你感興趣的關聯規則:Weka的HotSpot演算法之後,這篇要介紹的是實作了Exceptional Model Mining的子社群探勘(subgroup discovery)專門工具:CORTANA。跟HotSpot相比,CORTANA不僅可以探勘連續類型的目標變項(target variable),還能夠綜合多個目標變項成為一個目標概念(target concept),以此找到最能符合目標概念的子群組(subgroup)。

(more...)

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

布丁布丁吃布丁

白箱或黑箱:如何依照場合選擇機器學習模型? / White box or black box: choosing a machine learning model for your application

image

我之前的幾篇文章中一直提到資料探勘(機器學習)中黑箱演算法與白箱演算法的概念。黑箱演算法正確率高、但產生的模型難以解釋;白箱演算法能夠產生容易理解的模型,但正確率可能不高。最近在看Vidyadhar Ranade在2017年4月所寫的「White box or black box: choosing a machine learning model for your application」,覺得他對黑箱與白箱的見解頗有道理。因此試著將內容翻譯出來,讓大家對機器學習演算法中黑箱與白箱的特性有更深刻的認識。

(more...)

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

布丁布丁吃布丁

M5P:預測非線性連續資料的樹狀迴歸演算法 / M5P: Trees with Linear Models in Weka

image

M5P樹狀迴歸演算法Weka內建的一種迴歸演算法。它可根據資料的分佈建立多種迴歸模型,依據輸入資料的不同來決定適用的迴歸模型。比起傳統的線性迴歸,M5P能夠準確預測非線性的資料,而且規則與迴歸模型容易解讀。相較於類神經網路支持向量機等黑箱演算法,白箱演算法的M5P更容易用於研究結果的解釋上。

(more...)

文本探勘分析:用Zotero與資料庫進行書目計量與文本探勘的感想 / Text Analysis: Bibliometrics and Text Mining with Zotero and Database

文本探勘分析:用Zotero與資料庫進行書目計量與文本探勘的感想 / Text Analysis: Bibliometrics and Text Mining with Zotero and Database

image

文本探勘的研究要怎麼進行呢?許多文本分析和書目計量學的研究都使用EndNote跟Excel來整理資料,但其實使用免費的Zotero跟資料庫來做書目計量才是最佳的選擇。我想在這篇簡短聊一下我在2016年底所進行的文本探勘研究的處理方式,也許未來還會有機會做類似的研究吧?

(more...)

自動決定最佳化分群數量:X-means / Determin the Optimal Number of Clusters: X-means

自動決定最佳化分群數量:X-means / Determin the Optimal Number of Clusters: X-means

image

能夠自動決定分群數量的演算法,除了層疊K平均分群法之外,Weka裡面還有另一個分群法也能做到類似的目的,那就是X-means。X-means為每個分群結果計算貝氏資訊準則BIC Score,以此決定是否要將資料分成更多群。跟層疊K平均分群法一樣,它可以讓使用者選定分群數量的可能範圍。然而實際使用幾次後,我發現X-means的分群數量偏少,而且原理也不如層疊K平均分群法使用的Calinski-Harabasz指標(CH指標)容易解釋。因此比起X-means,我個人還是比較推薦使用層疊K平均分群法。本投影片的內容參考了X-means原論文[x-means] 1.x-means简介

(more...)

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

自動決定最佳化分群數量:層疊K平均分群法 / Determin the Optimal Number of Clusters: Cascade K-means

image

在資料探勘課程常教的K平均法雖然好用,但它最大的問題在於,到底該如何決定分群數量K呢?幸好我們還有其他的分群演算法可以選擇。Weka中另一個分群演算法層疊K平均分群法(Cascade K-means)採用建立大量不同分群數量的做法,評估每一次分群結果的Calinski-Harabasz指標(CH指標),找出組內距離最短、組間距離最長的最佳分群數量。我在資料聚類:分群分群與分類的整合應用:無監督分類器都有使用層疊K平均分群法來自動決定分群數量,這篇就讓我們在Weka中使用層疊K平均分群法來進行分群,並使用Weka分群結果分析器來試著解釋分群結果吧。

(more...)

行為順序預測:動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

行為順序預測:動態貝氏網路 / Behavior Prediction: Dynamic Bayesian Network

image

這是巨量資料探勘與統計應用課程行為順序檢定:滯後序列分析分類與預測:貝氏網路的進階應用。滯後序列分析只能分析前後兩個行為之間的轉變,如果我們想要預測更多步之後的行為,那我們就需要藉助貝氏網路的預測和推理能力。我們可以決定要為幾步內的行為進行建模,如果是兩步之間的模型,稱之為「二時段貝氏網路」(Two-Timeslice Bayesian Network,2TBN)。而這篇文章將以「四時段貝氏網路」來為幼兒平行遊戲事件序列資料,建立能夠預測和解釋幼兒行為的貝氏網路模型。

(more...)

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

布丁布丁吃布丁

分群與分類的整合應用:無監督分類器 / Building an Unsupervised Classification: Integrating Cluster and Classification in Weka

image

最近有讀者問到要怎麼在建立的分群結果之後,對後面新增的資料再依照前面的規則新增分群標籤。這就讓我想起來資料探勘課本裡面常常提到的一個機器學習議題:無監督式的監督學習 (Unsupervised Supervised Learning),或是成為不需訓練目標的分類法 (Classification wihtout labels),這篇就叫它作無監督分類器(Unsupervised Classification)。這個做法大多都是將分群結果作為分類的目標標籤,再以此建立分類模型。這種做法聽起來難度挺高的,不過實際在Weka中,我們只要動點巧思,不用寫任何程式,就可以實作這個高級分類技巧。這篇就來介紹一下如何實作無需監督的分類器吧。

(more...)