資料預測級導論: 分類的處理流程 / Introduction to Data Prediction: Procedure of Classification
這是巨量資料探勘與統計應用課程的投影片「資料預測級導論: 分類的處理流程」。本單元是屬於系列課程中的「資料預測級」的導論,這份投影片是為了銜接前面的「資料檢定級」與後面的概念,資料預測級的概念上比較接近現在「巨量資料(大數據)」或「人工智慧」的範疇,都是為了獲得一個「答案」,特別適用於「類別」類型的答案,這種做法稱之為「分類」。分類的步驟大致上分成 1. 準備資料、2. 建立模型、3. 評估模型、4. 預測未知、5. 修正模型。介紹最後還附上了一個以貝式網路建立的模型,可以讓同學先體驗用有沒有吸菸預測是否可能生病的機率。
單元大綱 / Outline
- 從資料檢定級 到 資料預測級
- 分類的處理流程
投影片 / Slide
- 教學投影片: Google Presentation
- 教學投影片其他格式: Power Point、 PDF、 OpenDocument Presnetation
我以Google簡報的檔案匯出成PPTX,再備份到以下位置:
- SlideShare 、 GitHub 、 OneDrive 、 Box 、 Mega 、 MediaFire 、 Google Drive
資料集 / Dataset
本單元用到了以下資料:
- 貝氏網路模型:吸菸-生病 data-sick.xml:這是我為了展示貝式網路功能的自行編撰的資料集。這個模型需搭配下面的貝式網路檢視器一起使用。
線上操作平臺 / Online Workplace
本單元只有展示貝式網路的功能,不需用到本機端的軟體,請使用以下雲端服務。建議使用Google Chrome瀏覽器開啟:
貝式網路檢視器 / BayesNet Viewer
小結 / In closing
本單元所介紹的分類處理流程跟傳統的資料探勘流程有些不同。傳統的資料探勘其實較常用於關聯規則分析,因此不需要訓練集與測試集的分類,也不需要預測未知。分類的處理流程重點在於從已知的訓練集來預測未知的測試集,建立模型之後還要評估模型的信心程度,因此並不能單純套用資料探勘的處理流程,最好是像這樣重新歸納為專門用於分類的五個步驟。
分類處理流程的五個步驟如下:
- 準備資料:整理樣本資料為訓練集與測試集
- 建立模型:分類演算法分析樣本特徵資料,歸納模式
- 評估模型:評估模型的信心程度
- 預測未知:預測未知的樣本
- 修正模型:加入更多已知資料,修正模型
是要預測還是要評估? / To predict or to evaluate?
許多資料探勘中分類的課程,大多只著重在前三個步驟。也就是用已知資料建立模型,然後評估一下模型的準確度,這樣就結束了。大部分的研究論文也許會做的非常複雜,可能會使用多種模型、多個評估指標來交互比較,但最後還是只做到第三步而已。
問題是,第四步預測未知才是預測資料的最終目標啊?做了模型卻不能拿來預測的話,那就算模型準確度再高,也只是個花瓶。這也是為什麼我會寫一篇「用Weka分類模型來預測未知案例」的原因。即使如此,還是有許多人是以傳統寫論文的思維來看分類這件事情,像是這一位讀者的問題仍著重在評估模型正確率,並不是真的想要預測未知。
因為這堂課的重點在於即戰力,學了方法就是要能預測,而不是為了教同學用這些方法寫研究論文,所以我的教學上也跟傳統的資料探勘安排有很大的不同。至於為什麼我要選擇資料探勘課程非常不流行的貝式網路跟樸素貝式分類演算法來作為授課內容,那就在下一篇介紹貝式網路時再來談談吧。
你對本單元的資料預測級有什麼看法呢?一般世俗都認為「巨量資料」(大數據)就等於「預測」,你也是這樣覺得嗎?還是你有其他的觀點呢?不妨在下面留言處說說你的想法,或是用AddThis按個讚或分享喔!