鐵達尼號生存者資料集 / Dataset: Titanic Survived
這份資料集改編自Kaggle所發佈的鐵達尼號生存者資料集。可作為機器學習練習使用。
資料來源 / Source
https://www.kaggle.com/competitions/titanic/data
資料集下載 / Download
這份資料集分成訓練集 Titanic-Survived.train.ods 與測試集 Titanic-Survived.test.ods 。
訓練集 / Train set
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
訓練集將用於構建機器學習的模型,並具備每位乘客是否存活的結果。機器學習模型應根據乘客的性別和艙位等「屬性」來建立,或是使用其他特徵工程(feature engineering)的技術來建造新的屬性。
測試集 / Test set
- Google試算表線上檢視
- ODS格式下載
- OpenDoucment Spreadsheet (.ods) 格式備份:Google Drive、GitHub、One Drive、Mega、Box、MediaFire、pCloud、Degoo、4shared
測試集則是用於評估模型的表現。原本的測試集並不會告訴你每位乘客是否存活,僅是讓機器學習模型用來預測結果。為了方便大家練習,我將測試集的結果加了上去。
案例數 / Instacnes
- 訓練集:890
- 測試集:418
屬性 / Attributes
本資料集有部分屬性有所缺失,建立模型的時候需要特別處理。
名稱 | 資料類型 | 定義 | 類別或數值的單位 | 缺失值筆數 (訓練集 / 測試集) |
PassengerId | 類別型 | 乘客編號 | 編號 | 0 / 0 |
Pclass | 數值型 | 船票等級,介於1至3之間。1為最高等 | 單位是等級 | 0 / 0 |
Name | 字串型 | 乘客的名字 | 0 / 0 | |
Sex | 類別型 | 性別 | female 女性 male 男性 |
0 / 0 |
Age | 數值型 | 年齡 | 單位是年。有些嬰兒未滿1歲,為浮點數。 | 177 / 86 |
SibSp | 數值型 | 船上的兄弟姐妹、配偶人數 | 單位是人數 | 0 / 0 |
Parch | 數值型 | 船上的父母、孩子的人數 | 單位是人數 | 0 / 0 |
Ticket | 字串型 | 船票編號 | 0 / 0 | |
Fare | 數值型 | 乘客票價 | 單位是金額 | 0 / 1 |
Cabin | 字串型 | 客艙編號 | 687 / 327 | |
Embarked | 類別型 | 登船港口 | S: Southampton 英國南安普敦,4月10日啟航港口 C: Cherbourg 法國瑟堡,4月10日靠岸 Q: Queenstown 愛爾蘭皇后鎮,現今為愛爾蘭港口科維(Cobh),4月11日靠岸,是船難前最後靠岸的港口 |
2 / 0 |
Survived | 類別型 | 是否成功生還 | false 沒有生還 true 成功生還 |
0 / 0 |
目標屬性 / Target class
「Survived」,也就是鐵達尼號的乘客是否生存。
文章最後要來問的是:你認為什麼屬性是影響乘客最後是否存活的關鍵呢?
- 1. 船票等級:越高級表示越有錢,應該更容易存活吧?
- 2. 性別:男生身體力壯,應該更容易存活吧?
- 3. 年齡:青壯年應該比老人或小孩更容易存活吧?
- 4. 登船港口:愛爾蘭上來的乘客,說不定是海盜的後代,更容易存活?
- 5. 其他:是否還有其他因素與存活率有關?
歡迎在下面說說你的看法喔!