titanic01
やっていること
kaggleのtitanicのやつ
メモ
test.csvの項目は?
Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype='object')
ここに詳細あった https://www.kaggle.com/c/titanic/data
なにが生存率に影響するか
仮説をもとに特徴量を作ってみようかなと
仮説たち
男の方が女より生存率が高い(救命ボートの奪いあいは、最後力ずく)
等級(Pclass)は関係ないのでは(生死にかかる場面で身分もなにもないのでは?)
あと、等級(Pclass)と運賃(Fare)は相関ありそうだから、投入するのは片方でよいのでは?(ただ、どこから乗ったかにもよりそう)
まあこんなところで、とりあえずグラフでみてみる。
男のが女より生存率が高い
sns.set() ax1 = sns.countplot(x = 'Sex', hue = 'Survived', data = train)
おお、予想とは逆に女性のが生存率が全然高そう!
等級は生存率に影響しないのでは
sns.set() # ax1 = sns.countplot(x = 'Sex', hue = 'Survived', data = train) ax2 = sns.countplot(x = 'Pclass', hue = 'Survived', data = train)
おお、等級は生存率に関係ありそう(等級が高いほど、生存率が高そう)