收入普查資料集 / Dataset: Census Income
這份資料集改編自Becker與Kohavi在1996年發佈的人口普查收入資料集。可作為機器學習練習使用。
資料來源 / Source
https://archive.ics.uci.edu/dataset/2/adult
Becker,Barry and Kohavi,Ronny. (1996). Adult. UCI Machine Learning Repository. https://doi.org/10.24432/C5XW20.
資料集下載 / Download
這份資料集分成了訓練集跟測試集。訓練集可以用來建立模型,而測試集則是用於驗證。
訓練集 / Train set
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo
測試集 / Test set
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo
簡介 / Description
這是Barry Becker從1994年普查資料庫取出的資料。主要預測目標是判斷那些人可以賺到每年5萬美元以上。
案例數量 / Instances
- 訓練集:32561
- 測試集:16281
屬性 / Attributes
此資料集有部分資料是有缺失值的,需要特別注意。
名稱 | 資料類型 | 定義 | 類別或數值的單位 | 缺失值筆數 (訓練集 / 測試集) |
age | 數值型 | 年齡 | 單位是年 | 0 / 0 |
workclass | 類別型 | 工作單位類型 | Federal-gov 聯邦政府 Local-gov 地方政府 Never-worked 沒工作過 Private 私人企業 Self-emp-inc 自顧企業 Self-emp-not-inc 自由業 State-gov 州政府 Without-pay 無給職 |
1836 / 963 |
fnlwgt | 數值型 | 推測代表人數,估計資料庫中屬於這種類型的人有多少 | 單位是人 | 0 / 0 |
education | 類別型 | 教育程度 | 1st-4th 國小低、中年級 5th-6th 國小高年級 7th-8th 國中一、二年級 9th 國中三年級 10th 高中一年級 11th 高中二年級 12th 高中三年級 Assoc-acdm 大專 Assoc-voc 準職業學位 Bachelors 學士 Doctorate 博士 HS-grad 高中畢業 Masters 碩士 Preschool 學齡前 Prof-school 職業學校 Some-college 大學肄業 |
0 / 0 |
education-num | 數值型 | 受教育時間 | 單位是年 | 0 / 0 |
marital-status | 類別型 | 婚姻狀態 | Divorced 離婚 Married-AF-spouse 已婚軍屬配偶 Married-civ-spouse 已婚平民配偶 Married-spouse-absent 已婚配偶異地 Never-married 未婚 Separated 分居 Widowed 喪偶 |
0 / 0 |
occupation | 類別型 | 職業類別 | Adm-clerical 管理文書 Armed-Forces 軍人 Craft-repair 手工藝維修 Exec-managerial 執行主管 Farming-fishing 農漁業 Handlers-cleaners 清潔工 Machine-op-inspct 機械操作 Other-service 其他職業 Priv-house-serv 家政服務 Prof-specialty 專業技術 Protective-serv 保安 Sales 銷售員 Tech-support 技術支援 Transport-moving 運輸 |
1843 / 966 |
relationship | 類別型 | 家庭角色類型 | Husband 丈夫 Not-in-family 離家 Other-relative 其他關係 Own-child 孩子 Unmarried 未婚 Wife 妻子 |
0 / 0 |
race | 類別型 | 種族 | Amer-Indian-Eskimo 美洲印第安裔、愛斯基摩裔 Asian-Pac-Islander 亞裔、太平洋島裔 Black 非裔 Other 其他 White 白人 |
0 / 0 |
sex | 類別型 | 性別 | Female 女性 Male 男性 |
0 / 0 |
capital-gain | 數值型 | 資本收益 | 單位是美金 | 0 / 0 |
capital-loss | 數值型 | 資本虧損 | 單位是美金 | 0 / 0 |
hours-per-week | 數值型 | 每週工時 | 單位是小時 | 0 / 0 |
native-country | 類別型 | 原國籍 | 國家名,包括United-States 美國、Mexico 墨西哥、Philippines 菲律賓等等 | 583 / 274 |
income | 類別型 | 年薪是否超過5萬美元 | >50K 小於5萬美元 <=50K 大於5萬美元 |
0 / 0 |
目標屬性 / Target class
「income」,也就是年薪是否超過5萬美元。
最後要來提問的是:你覺得最有可能影響年薪的屬性是哪一個呢?
- 1. age 年齡
- 2. workclass 工作單位類型
- 3. education 教育程度
- 4. sex 性別
- 5. 其他屬性
歡迎在下面留言喔!