Python數據可視化——分佈數據可視化

時間 2019-11-19

原文原文鏈接

這篇文章是Python可視化seaborn系列的第二篇文章，本文將詳解seaborn如何探索數據的分佈。函數

單變量spa

直方圖 displot3d

seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)orm

bins → 箱數blog

hist、ked、rug → bool,是否顯示箱/密度曲線/數據分佈ip

norm_hist → 直方圖是否按照密度來顯示，若是爲False,顯示計數ci

{hist，kde，rug，fit} _kws：字典，對應部分的各類參數。string

vertical → 是否水平顯示it

fit → 可結合scipy庫在圖像上作擬合io

label → 圖例

axlabel → x軸標註

核密度估計圖 kdeplot

核密度估計的步驟：

每個觀測附近用一個正態分佈曲線近似

疊加全部觀測的正態分佈曲線

歸一化

seaborn.kdeplot（data，data2 = None，shade = False，vertical = False，kernel ='gau'，bw ='scott'，gridsize = 100，cut = 3，clip = None，legend = True，cumulative = False，shade_lowest = True，cbar = False，cbar_ax =無，cbar_kws =無，ax =無， kwargs ）

shade: 若是爲True，則用顏色填充KDE曲線下方的區域（或者在數據爲雙變量時用顏色填充的輪廓）

kernel: {‘gau’|‘cos’|‘biw’|‘epa’|‘tri’|‘triw’} 用於擬合的核，雙變量值能用高斯核（gau）

bw: {'scott'|'silverman'|標量|一對標量} 肯定核的大小，近似理解爲擬合程度，bw越大，曲線越平緩。

gridsize：int, 網格中的離散點數

cumulative ：是否繪製累積分佈

cbar：參數若爲True，則會添加一個顏色條(顏色條在雙變量kde圖像中才有)

核密度分佈圖不但能繪製單個變量的，也能繪製雙變量！！！

雙變量

jointplot

seaborn.jointplot（x，y，data = None，kind ='scatter'，color = None，size = 6，ratio = 5，space = 0.2，dropna = True，xlim = None，ylim = None，joint_kws = None，marginal_kws =None，annot_kws =None， kwargs ）

該函數是JoinGrid類的一個輕量級界面，若是想更加靈活的繪製，可使用JoinGrid函數

kind: 設置類型：「scatter」、「reg」、「resid」、「kde」、「hex」

size: int, 圖像大小（圖像自動調整爲正方形）

radio: int, 主圖與邊緣圖的高度比

space: # 設置主圖和邊緣圖的間距

{x，y} lim ：在繪圖以前設置軸限制

{joint，marginal，annot} _kws：dicts 繪圖組件的其餘關鍵字參數

seaborn會直接給出變量的皮爾遜相關係數和P值

pearson相關係數計算：

p：樣本間的差別由抽樣偏差所致的機率小於p.

JointGrid

前面講過jointplot實際上是JoinGrid的一個封裝，要想有更靈活的設置，可使用JoinGrid類

__init__（x，y，data = None，size = 6，ratio = 5，space = 0.2，dropna = True，xlim = None，ylim = None）

方法：

plot（joint_func，marginal_func ,annot_func)→ 繪製完整的圖形

plot_joint（func，** kwargs）→ 繪製雙變量圖形

plot_marginals（func，** kwargs）→ 繪製邊緣單變量圖形

savefig（ args，* kwargs）→ 保存

set_axis_labels（[xlabel，ylabel]）→ 在雙變量軸上設置軸標籤。

探索兩兩變量之間的關係

一般咱們的數據並非只有一個或者兩個變量，那麼對於多個變量，咱們常須要探索兩兩變量之間的分佈及關係這是咱們就須要使用pairplot函數或者是PairGrid類

pairplot

seaborn.pairplot（data，hue = None，hue_order = None，palette = None，vars = None，x_vars = None，y_vars = None，kind ='scatter'，diag_kind ='auto'，markers = None，s = 2.5，aspect = 1，dropna = True，plot_kws = None，diag_kws = None，grid_kws = None）

hue: string(變量名) ：顏色將按照指定的變量分類

hue_order ： list 設置調色板色調變量級別

palette ：調色板

vars : list 變量名稱列表，不然使用全部數值型變量的列

markers: 點樣式

sepal_length sepal_width petal_length petal_width species

5.1 3.5 1.4 0.2 setosa

4.9 3.0 1.4 0.2 setosa

4.7 3.2 1.3 0.2 setosa

4.6 3.1 1.5 0.2 setosa

5.0 3.6 1.4 0.2 setosa

PairGrid

至關於jointplot 和 JointGrid的關係，PairGrid 對矩陣散點圖有着更爲靈活的控制

__init__（data，hue = None，hue_order = None，palette = None，hue_kws = None，vars = None，x_vars = None，y_vars = None，diag_sharey = True，size = 2.5，aspect = 1，despine = True，dropna = True）

方法：

add_legend（[legend_data，title，label_order]）繪製一個圖例，可能將其放在軸外並調整圖形大小。

map_diag（func，** kwargs）：在每一個對角線子圖上繪製具備單變量函數的圖。

map_lower（func，** kwargs）：在下對角線子圖上繪製具備雙變量函數的圖。

map_upper（func，** kwargs）：在上對角線子圖上繪製具備雙變量函數的圖

map_offdiag（func，** kwargs）：在非對角線子圖上繪製具備雙變量函數的圖。

set（** kwargs）：在每一個子圖集Axes上設置屬性。

看再屢次，都不如本身親自動手寫一次，只有在實際應用中不斷練習，思考，調整。才能理解掌握數據可視化的技能。