資料的來源與形態 / Data Source and Format
這是巨量資料探勘與統計應用課程的投影片「資料的來源與形態」。本單元是屬於系列課程中的導論「資料處理」。本單元先定義資料的形態,包括非結構化資料跟結構化資料,再來講述如何從開放資料(open data)中取得資料來源,以及資料的各種格式。本單元也說明這系列課程所使用的Google試算表的主要操作方式,以及學生填寫和繳交學習單作業的程序。這個單元包含一個測驗、兩個實作內容。
單元大綱 / Outline
-
資料的類型:非結構化資料
-
資料的類型:結構化資料
-
測驗:辨識資料的類型
-
資料的來源:開放資料
-
實作:取得Google試算表資料
-
實作:排序與篩選資料
投影片 / Slide
- Google投影片 (PDF, PowerPoint)
- PowerPoint備份:OneDrive, Box, Mega, MediaFire, Google Drive, SlideShare
學習單 / Worksheets
資料集 / Dataset
- 汽車銷售記錄 (修改自「統計學: R-Web分析導論 : 生活中的統計應用14篇」書中的內容)
測驗 / Examine
小結 / In closing
這堂課只是為了這個系列課程的暖身,所以看起來跟統計或是資料探勘都沒有太大的關係。儘管如此,我還是發現很多研究生就算上過了統計或是資料探勘課程,居然對資料的類型還是很沒概念。資料是什麼類型,幾乎就決定了要如何分析、呈現的做法,我之前也有在介紹邱皓政老師著作中的「推論統計分析技術系統」裡討論過這個問題。
教完課後回來再看看,雖然當初發下宏願要用我國的政府資料開放平臺來做為課程的範例,但後來在備課過程中發現還是有諸多困難。這並不是單純因為政府開放平臺上面的資料格式混亂的問題。大家也知道,我很會處理資料格式,像詞典轉換匯入到單字卡這種都算小事。
問題在於,推論統計的檢定真的很嚴格。在沒有特別實驗設計或特殊因素的影響,要在一般記錄中找出具有顯著差異、顯著相關的資料,其實真的很不容易。這也再次驗證了古人統計學家所提出的統計理論,直到現在還是很嚴謹的呢!
至於為什麼單元裡面會出現很多「W03」,那是因為這是第三週上課的編號。本課程除了這次講「資料的來源與形態」的基礎單元之外,其他單元並沒有一定要求先後順序的學習,各單元之間可獨立學習。因此我在整理這些教材的時候,也是一個單元一個單元個別整理。如果有人在Google上直接找到這個單元的內容的話,那就該單元直接學習即可。全部整理完之後,我會再將W01的「巨量資料與統計概念簡介」整理出來,作為這一系列單元的目錄。
因應Google雲端硬碟修改分享連結的格式,此篇的分享連結也一併修改。
回覆刪除