學生資料集 / Dataset: Student Performance
這是修改自Paulo Cortez所發佈的「Student Performance」的資料集。我將資料集調整後用於講課。
資料來源 / Reference
http://archive.ics.uci.edu/ml/datasets/Student+Performance
Cortez,Paulo. (2014). Student Performance. UCI Machine Learning Repository. https://doi.org/10.24432/C5TG7T.
資料集下載 / Download
訓練集:stu-sch-1 - train.ods
- Google試算表線上檢視
- stu-sch-1 - train.ods 檔案備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、sync.com、Degoo
測試集:stu-sch-2 - test.ods
未知資料:stu-sch-3 - unknown.ods
簡介 / Description
這份資料集是來自葡萄牙的兩所國中的學生成績。資料屬性是從學校回報和問卷調查取得,包括了學生成績、人口統計資料、社交活動、以及學校等相關資訊。但本資料集為了教課需求,捨棄了成績的屬性,僅以學校作為目標屬性。
資料筆數 / Instances
- 訓練集:32561
- 測試集:16281
- 未知資料:41
屬性 / Attributes
本資料集無缺失值。
名稱 | 資料類型 | 定義 | 類別或數值的單位 |
Gender | 類別型 | 性別 | female 女性 male 男性 |
Age | 數值型 | 年齡 | 單位是年 |
Address | 類別型 | 住家位置 | rural 郊區 urban 市區 |
FamiSize | 類別型 | 家庭成員 | <=3 3人以下 >3 3人以上 |
ParentsStat | 類別型 | 父母狀態 | apart 分居 together 同居 |
MonEdu | 數值型 | 母親教育程度 | 分成5種類別,數字越大,表示教育程度越高 0 未受教育 1 4年 (國小) 2 5年至9年 (國中以前) 3 國中 4 國中以上 |
FatEdu | 數值型 | 父親教育程度 | 分成5種類別,數字越大,表示教育程度越高 0 未受教育 1 4年 (國小) 2 5年至9年 (國中以前) 3 國中 4 國中以上 |
MonJob | 類別型 | 母親職業 | at_home 家管 health 健康醫療相關 other 其他 services 服務業、管理職或是警察 teacher 教師 |
FatJob | 類別型 | 父親職業 | at_home 家管 health 健康醫療相關 other 其他 services 服務業、管理職或是警察 teacher 教師 |
ChoSchReason | 類別型 | 選擇學校的理由 | course 課程內容 home 離家近 other 其他理由 reputation 學校名聲 |
Guardian | 類別型 | 監護人 | father 父親 monther 母親 other 其他 |
TravelTime | 類別型 | 通勤時間 | 分成4種類別,數字越高,表示通勤時間越長 1:小於15分鐘 2:15至30分鐘 3:30分鐘至1小時 4:1小時以上 |
StudyTime | 類別型 | 每週讀書時間 | 分成4種類別,數字越高,表示每週讀書時間越長 1:小於2小時 2:2小時至5小時之間 3:5小時至10小時之間 4:10小時以上 |
ClassFailures | 數值型 | 課程不及格次數 | 單位是次數。如果超過4次,則以4表示。 |
schoolsup | 類別型 | 其他教育資助 | no:沒有資助 yes:有資助 |
FamiSup | 類別型 | 家庭教育資助 | no:沒有資助 yes:有資助 |
PaidExtraCourse | 類別型 | 有參加額外付費的補習課程 | no:沒有參加 yes:有參加 |
ExtraActivities | 類別型 | 有參加課外活動 | no:沒有參加 yes:有參加 |
Nursery | 類別型 | 有上過托兒所 | no:沒有上過 yes:有上過 |
WantHigherEdu | 類別型 | 畢業後想要繼續唸書 | no:不想繼續唸書 yes:想繼續唸書 |
Internet | 類別型 | 家裡能夠上網 | no:不能上網 yes:能上網 |
RomanRelation | 類別型 | 有交往對象 | no:沒有 yes:有 |
FamiRelation | 數值型 | 與家庭的關係 | 分成5種層次。1表示非常糟、5表示非常好。 |
Freetime | 數值型 | 課後的自由時間 | 分成5種層次。1表示非常少、5表示非常多。 |
GoOut | 數值型 | 與朋友出去的頻率 | 分成5種層次。1表示非常少、5表示非常多。 |
AlcWorkday | 數值型 | 平日喝酒程度 | 分成5種層次。1表示非常少、5表示非常多。 |
AlcWeeken | 數值型 | 週末喝酒程度 | 分成5種層次。1表示非常少、5表示非常多。 |
HealthStatus | 數值型 | 學生健康狀態 | 分成5種層次。1表示非常糟、5表示非常好。 |
Absences | 數值型 | 缺席次數 | 單位是次數 |
School | 類別型 | 就讀學校 | 兩所葡萄牙的學校 GP:Gabriel Pereira MS:Mousinho da Silveira |
目標屬性 / Target
School
結語 / In closing
由於我講課的對象大多是人文社會科學的學生,我常常用這份資料集來介紹。資料的內容我有稍微調整過,跟原始的資料集不太一樣。這份資料集可以用於預測、分群、熱點分析,各種機器學習的分析都可以使用。不過要拿來教課的時候需要注意到現場教學環境能不能負荷這個大小的資料量。如果現場環境的電腦性能不足,可以考慮縮減資料量之後再來使用。
最後要來問的問題是:在對於這份資料集可以分析的方向中,你覺得那個比較感興趣呢?
- 1. 預測
- 2. 分群
- 3. 熱點分析
- 4. 其他
歡迎下面留言喔!