:::

鐵達尼號生存者資料集 / Dataset: Titanic Survived

2023-0712-221149.png

這份資料集改編自Kaggle所發佈的鐵達尼號生存者資料集。可作為機器學習練習使用。


資料來源 / Source

https://www.kaggle.com/competitions/titanic/data

https://www.kaggle.com/competitions/titanic/data 

資料集下載 / Download

https://docs.google.com/spreadsheets/d/1I2LGW3bcJXekJy46pesuEsbiuIbb2ZQ6R9xuvmH1u4M/edit?usp=sharing

這份資料集分成訓練集 Titanic-Survived.train.ods 與測試集 Titanic-Survived.test.ods 。

訓練集 / Train set

訓練集將用於構建機器學習的模型,並具備每位乘客是否存活的結果。機器學習模型應根據乘客的性別和艙位等「屬性」來建立,或是使用其他特徵工程(feature engineering)的技術來建造新的屬性。

測試集 / Test set

測試集則是用於評估模型的表現。原本的測試集並不會告訴你每位乘客是否存活,僅是讓機器學習模型用來預測結果。為了方便大家練習,我將測試集的結果加了上去。

案例數 / Instacnes

  • 訓練集:890
  • 測試集:418

屬性 / Attributes

本資料集有部分屬性有所缺失,建立模型的時候需要特別處理。

名稱 資料類型 定義 類別或數值的單位 缺失值筆數
(訓練集 / 測試集)
PassengerId 類別型 乘客編號 編號 0 / 0
Pclass 數值型 船票等級,介於1至3之間。1為最高等 單位是等級 0 / 0
Name 字串型 乘客的名字   0 / 0
Sex 類別型 性別 female 女性
male 男性
0 / 0
Age 數值型 年齡 單位是年。有些嬰兒未滿1歲,為浮點數。 177 / 86
SibSp 數值型 船上的兄弟姐妹、配偶人數 單位是人數 0 / 0
Parch 數值型 船上的父母、孩子的人數 單位是人數 0 / 0
Ticket 字串型 船票編號   0 / 0
Fare 數值型 乘客票價 單位是金額 0 / 1
Cabin 字串型 客艙編號   687 / 327
Embarked 類別型 登船港口 S: Southampton 英國南安普敦,4月10日啟航港口
C: Cherbourg 法國瑟堡,4月10日靠岸
Q: Queenstown 愛爾蘭皇后鎮,現今為愛爾蘭港口科維(Cobh),4月11日靠岸,是船難前最後靠岸的港口
2 / 0
Survived 類別型 是否成功生還 false 沒有生還
true 成功生還
0 / 0

目標屬性 / Target class

5._.png

「Survived」,也就是鐵達尼號的乘客是否生存。


文章最後要來問的是:你認為什麼屬性是影響乘客最後是否存活的關鍵呢?

  • 1. 船票等級:越高級表示越有錢,應該更容易存活吧?
  • 2. 性別:男生身體力壯,應該更容易存活吧?
  • 3. 年齡:青壯年應該比老人或小孩更容易存活吧?
  • 4. 登船港口:愛爾蘭上來的乘客,說不定是海盜的後代,更容易存活?
  • 5. 其他:是否還有其他因素與存活率有關?

歡迎在下面說說你的看法喔!