:::

學生資料集 / Dataset: Student Performance

2023-0709-175712.png

這是修改自Paulo Cortez所發佈的「Student Performance的資料集。我將資料集調整後用於講課。


資料來源 / Reference

http://archive.ics.uci.edu/ml/datasets/Student+Performance

http://archive.ics.uci.edu/ml/datasets/Student+Performance

Cortez,Paulo. (2014). Student Performance. UCI Machine Learning Repository. https://doi.org/10.24432/C5TG7T.

資料集下載 / Download

2023-0709-164233.png

訓練集:stu-sch-1 - train.ods 

測試集:stu-sch-2 - test.ods 

未知資料:stu-sch-3 - unknown.ods  


簡介 / Description

這份資料集是來自葡萄牙的兩所國中的學生成績。資料屬性是從學校回報和問卷調查取得,包括了學生成績、人口統計資料、社交活動、以及學校等相關資訊。但本資料集為了教課需求,捨棄了成績的屬性,僅以學校作為目標屬性。

資料筆數 / Instances

  • 訓練集:32561
  • 測試集:16281
  • 未知資料:41

屬性 / Attributes

本資料集無缺失值。

名稱 資料類型 定義 類別或數值的單位
Gender 類別型 性別 female 女性
male 男性
Age 數值型 年齡 單位是年
Address 類別型 住家位置 rural 郊區
urban 市區
FamiSize 類別型 家庭成員 <=3 3人以下
>3 3人以上
ParentsStat 類別型 父母狀態 apart 分居
together 同居
MonEdu 數值型 母親教育程度 分成5種類別,數字越大,表示教育程度越高
0 未受教育
1 4年 (國小)
2 5年至9年 (國中以前)
3 國中
4 國中以上
FatEdu 數值型 父親教育程度 分成5種類別,數字越大,表示教育程度越高
0 未受教育
1 4年 (國小)
2 5年至9年 (國中以前)
3 國中
4 國中以上
MonJob 類別型 母親職業 at_home 家管
health 健康醫療相關
other 其他
services 服務業、管理職或是警察
teacher 教師
FatJob 類別型 父親職業 at_home 家管
health 健康醫療相關
other 其他
services 服務業、管理職或是警察
teacher 教師
ChoSchReason 類別型 選擇學校的理由 course 課程內容
home 離家近
other 其他理由
reputation 學校名聲
Guardian 類別型 監護人 father 父親
monther 母親
other 其他
TravelTime 類別型 通勤時間 分成4種類別,數字越高,表示通勤時間越長
1:小於15分鐘
2:15至30分鐘
3:30分鐘至1小時
4:1小時以上
StudyTime 類別型 每週讀書時間 分成4種類別,數字越高,表示每週讀書時間越長
1:小於2小時
2:2小時至5小時之間
3:5小時至10小時之間
4:10小時以上
ClassFailures 數值型 課程不及格次數 單位是次數。如果超過4次,則以4表示。
schoolsup 類別型 其他教育資助 no:沒有資助
yes:有資助
FamiSup 類別型 家庭教育資助 no:沒有資助
yes:有資助
PaidExtraCourse 類別型 有參加額外付費的補習課程 no:沒有參加
yes:有參加
ExtraActivities 類別型 有參加課外活動 no:沒有參加
yes:有參加
Nursery 類別型 有上過托兒所 no:沒有上過
yes:有上過
WantHigherEdu 類別型 畢業後想要繼續唸書 no:不想繼續唸書
yes:想繼續唸書
Internet 類別型 家裡能夠上網 no:不能上網
yes:能上網
RomanRelation 類別型 有交往對象 no:沒有
yes:有
FamiRelation 數值型 與家庭的關係 分成5種層次。1表示非常糟、5表示非常好。
Freetime 數值型 課後的自由時間 分成5種層次。1表示非常少、5表示非常多。
GoOut 數值型 與朋友出去的頻率 分成5種層次。1表示非常少、5表示非常多。
AlcWorkday 數值型 平日喝酒程度 分成5種層次。1表示非常少、5表示非常多。
AlcWeeken 數值型 週末喝酒程度 分成5種層次。1表示非常少、5表示非常多。
HealthStatus 數值型 學生健康狀態 分成5種層次。1表示非常糟、5表示非常好。
Absences 數值型 缺席次數 單位是次數
School 類別型 就讀學校 兩所葡萄牙的學校
GP:Gabriel Pereira
MS:Mousinho da Silveira

目標屬性 / Target

School


結語 / In closing

由於我講課的對象大多是人文社會科學的學生,我常常用這份資料集來介紹。資料的內容我有稍微調整過,跟原始的資料集不太一樣。這份資料集可以用於預測、分群、熱點分析,各種機器學習的分析都可以使用。不過要拿來教課的時候需要注意到現場教學環境能不能負荷這個大小的資料量。如果現場環境的電腦性能不足,可以考慮縮減資料量之後再來使用。


最後要來問的問題是:在對於這份資料集可以分析的方向中,你覺得那個比較感興趣呢?

  • 1. 預測
  • 2. 分群
  • 3. 熱點分析
  • 4. 其他

歡迎下面留言喔!