:::

資料的來源與形態 / Data Source and Format

image

這是巨量資料探勘與統計應用課程的投影片「資料的來源與形態」。本單元是屬於系列課程中的導論「資料處理」。本單元先定義資料的形態,包括非結構化資料跟結構化資料,再來講述如何從開放資料(open data)中取得資料來源,以及資料的各種格式。本單元也說明這系列課程所使用的Google試算表的主要操作方式,以及學生填寫和繳交學習單作業的程序。這個單元包含一個測驗、兩個實作內容。


單元大綱 / Outline

  1. 資料的類型:非結構化資料

  2. 資料的類型:結構化資料

    • 測驗:辨識資料的類型

  3. 資料的來源:開放資料

  4. 實作:取得Google試算表資料

  5. 實作:排序與篩選資料

投影片 / Slide

學習單 / Worksheets

2017-09-02_193418

資料集 / Dataset

2017-03-07_142615

測驗 / Examine

image


小結 / In closing

這堂課只是為了這個系列課程的暖身,所以看起來跟統計或是資料探勘都沒有太大的關係。儘管如此,我還是發現很多研究生就算上過了統計或是資料探勘課程,居然對資料的類型還是很沒概念。資料是什麼類型,幾乎就決定了要如何分析、呈現的做法,我之前也有在介紹邱皓政老師著作中的「推論統計分析技術系統」裡討論過這個問題。

教完課後回來再看看,雖然當初發下宏願要用我國的政府資料開放平臺來做為課程的範例,但後來在備課過程中發現還是有諸多困難。這並不是單純因為政府開放平臺上面的資料格式混亂的問題。大家也知道,我很會處理資料格式,像詞典轉換匯入到單字卡這種都算小事。

問題在於,推論統計的檢定真的很嚴格。在沒有特別實驗設計或特殊因素的影響,要在一般記錄中找出具有顯著差異、顯著相關的資料,其實真的很不容易。這也再次驗證了古人統計學家所提出的統計理論,直到現在還是很嚴謹的呢!

至於為什麼單元裡面會出現很多「W03」,那是因為這是第三週上課的編號。本課程除了這次講「資料的來源與形態」的基礎單元之外,其他單元並沒有一定要求先後順序的學習,各單元之間可獨立學習。因此我在整理這些教材的時候,也是一個單元一個單元個別整理。如果有人在Google上直接找到這個單元的內容的話,那就該單元直接學習即可。全部整理完之後,我會再將W01的「巨量資料與統計概念簡介」整理出來,作為這一系列單元的目錄。

總共1 則留言 ( 我要發問 , 隱藏留言 顯示留言 )

  1. 因應Google雲端硬碟修改分享連結的格式,此篇的分享連結也一併修改。

    回覆刪除