---恢復內容開始---url
原kaggle比賽地址:https://www.kaggle.com/c/titanicspa
原kernel地址:A Data Science Framework: To Achieve 99% Accuracy.net
Step 4: Perform Exploratory Analysis with Statistics
使用描述性與圖表分析數據,重點在於數據可視化,突出數據類別與不一樣feature的關聯性orm
簡單的groupby()得到不一樣feature對於生存率的影響blog
箱型圖與柱狀圖繪製。ci
箱型圖:plt.boxplot(),清晰表示數據的集中程度、離羣點、中位數的位置。get
柱狀圖plt.hist(),表示每一個feature的不一樣值/分類的Survived數量。it
seaborn 的barplot展現的是某feature的平均值,是數值變量的集中趨勢io
pointplot():數值變量的中心趨勢估計,並使用偏差線提供關於該估計的不肯定性的一些指示。form
violinplot():小提琴圖顯示數據分佈及其機率密度。
由於性別因素對是否生還形成很大影響,所以咱們將性別和其餘feature聯合繪圖比較,看看是否有什麼新發現:
而後是其餘feature的比較圖:
不一樣船艙等級和性別對生還率的影響:
不一樣年齡的連續生還曲線:
直方圖比較性別、年齡、船艙等級:
微妙的看出低等倉與中等艙的男性大批死亡。頭等艙的女性幾乎所有生還。
pairplot()多變量圖將全部的feature交叉繪圖,隱含feature之間的關聯性。
heatmap()熱力圖,反應feature之間的關聯度: