kaggle入門項目:Titanic存亡預測(三)數據可視化與統計分析

---恢復內容開始---url

原kaggle比賽地址:https://www.kaggle.com/c/titanicspa

原kernel地址:A Data Science Framework: To Achieve 99% Accuracy.net

Step 4: Perform Exploratory Analysis with Statistics

使用描述性與圖表分析數據,重點在於數據可視化,突出數據類別與不一樣feature的關聯性orm

簡單的groupby()得到不一樣feature對於生存率的影響blog

箱型圖與柱狀圖繪製。ci

箱型圖:plt.boxplot(),清晰表示數據的集中程度、離羣點、中位數的位置。get

柱狀圖plt.hist(),表示每一個feature的不一樣值/分類的Survived數量。it

seaborn 的barplot展現的是某feature的平均值,是數值變量的集中趨勢io

pointplot():數值變量的中心趨勢估計,並使用偏差線提供關於該估計的不肯定性的一些指示。form

violinplot():小提琴圖顯示數據分佈及其機率密度。

由於性別因素對是否生還形成很大影響,所以咱們將性別和其餘feature聯合繪圖比較,看看是否有什麼新發現:

而後是其餘feature的比較圖:

 不一樣船艙等級和性別對生還率的影響:

不一樣年齡的連續生還曲線:

直方圖比較性別、年齡、船艙等級:

微妙的看出低等倉與中等艙的男性大批死亡。頭等艙的女性幾乎所有生還。

pairplot()多變量圖將全部的feature交叉繪圖,隱含feature之間的關聯性。

heatmap()熱力圖,反應feature之間的關聯度:

相關文章
相關標籤/搜索