titanic01

やっていること

kaggleのtitanicのやつ

www.kaggle.com

メモ

test.csvの項目は?

Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

ここに詳細あった https://www.kaggle.com/c/titanic/data

なにが生存率に影響するか

仮説をもとに特徴量を作ってみようかなと

仮説たち

  1. 男の方が女より生存率が高い(救命ボートの奪いあいは、最後力ずく)

  2. 等級(Pclass)は関係ないのでは(生死にかかる場面で身分もなにもないのでは?)

あと、等級(Pclass)と運賃(Fare)は相関ありそうだから、投入するのは片方でよいのでは?(ただ、どこから乗ったかにもよりそう)

まあこんなところで、とりあえずグラフでみてみる。

男のが女より生存率が高い

sns.set()
ax1 = sns.countplot(x = 'Sex', hue = 'Survived', data = train)

f:id:iiiiikamirin:20200817205135p:plain

おお、予想とは逆に女性のが生存率が全然高そう!

等級は生存率に影響しないのでは

sns.set()
# ax1 = sns.countplot(x = 'Sex', hue = 'Survived', data = train)
ax2 = sns.countplot(x = 'Pclass', hue = 'Survived', data = train)

f:id:iiiiikamirin:20200817205355p:plain

おお、等級は生存率に関係ありそう(等級が高いほど、生存率が高そう)