Python數據可視化——分佈數據可視化


 

這篇文章是Python可視化seaborn系列的第二篇文章,本文將詳解seaborn如何探索數據的分佈。函數


 

單變量spa

直方圖 displot3d

seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)orm

bins → 箱數blog

hist、ked、rug → bool,是否顯示箱/密度曲線/數據分佈ip

norm_hist → 直方圖是否按照密度來顯示,若是爲False,顯示計數ci

{hist,kde,rug,fit} _kws:字典,對應部分的各類參數。string

vertical → 是否水平顯示it

fit → 可結合scipy庫在圖像上作擬合io

label → 圖例

axlabel → x軸標註


 

 

 

 

核密度估計圖 kdeplot

核密度估計的步驟:

每個觀測附近用一個正態分佈曲線近似

疊加全部觀測的正態分佈曲線

 

歸一化

seaborn.kdeplot(data,data2 = None,shade = False,vertical = False,kernel ='gau',bw ='scott',gridsize = 100,cut = 3,clip = None,legend = True,cumulative = False,shade_lowest = True,cbar = False,cbar_ax =無,cbar_kws =無,ax =無, kwargs )

shade: 若是爲True,則用顏色填充KDE曲線下方的區域(或者在數據爲雙變量時用顏色填充的輪廓)

kernel: {‘gau’|‘cos’|‘biw’|‘epa’|‘tri’|‘triw’} 用於擬合的核,雙變量值能用高斯核(gau)

bw: {'scott'|'silverman'|標量|一對標量} 肯定核的大小,近似理解爲擬合程度,bw越大,曲線越平緩。

gridsize:int, 網格中的離散點數

cumulative :是否繪製累積分佈

cbar:參數若爲True,則會添加一個顏色條(顏色條在雙變量kde圖像中才有)


 

 

 

 

核密度分佈圖不但能繪製單個變量的,也能繪製雙變量!!!


 

 

雙變量

jointplot

seaborn.jointplot(x,y,data = None,kind ='scatter',color = None,size = 6,ratio = 5,space = 0.2,dropna = True,xlim = None,ylim = None,joint_kws = None,marginal_kws =None,annot_kws =None, kwargs )

該函數是JoinGrid類的一個輕量級界面,若是想更加靈活的繪製,可使用JoinGrid函數

kind: 設置類型:「scatter」、「reg」、「resid」、「kde」、「hex」

size: int, 圖像大小(圖像自動調整爲正方形)

radio: int, 主圖與邊緣圖的高度比

space: # 設置主圖和邊緣圖的間距

{x,y} lim :在繪圖以前設置軸限制

{joint,marginal,annot} _kws:dicts 繪圖組件的其餘關鍵字參數


 

 

seaborn會直接給出變量的皮爾遜相關係數和P值

pearson相關係數計算:

 


 

p:樣本間的差別由抽樣偏差所致的機率小於p.


 

 

 

 

 

JointGrid

前面講過jointplot實際上是JoinGrid的一個封裝,要想有更靈活的設置,可使用JoinGrid類

__init__(x,y,data = None,size = 6,ratio = 5,space = 0.2,dropna = True,xlim = None,ylim = None)

方法:

plot(joint_func,marginal_func ,annot_func)→ 繪製完整的圖形

plot_joint(func,** kwargs)→ 繪製雙變量圖形

plot_marginals(func,** kwargs)→ 繪製邊緣單變量圖形

savefig( args,* kwargs)→ 保存

set_axis_labels([xlabel,ylabel])→ 在雙變量軸上設置軸標籤。


 

 

 

 

 

 

探索兩兩變量之間的關係

一般咱們的數據並非只有一個或者兩個變量,那麼對於多個變量,咱們常須要探索兩兩變量之間的分佈及關係這是咱們就須要使用pairplot函數 或者是PairGrid類

pairplot

seaborn.pairplot(data,hue = None,hue_order = None,palette = None,vars = None,x_vars = None,y_vars = None,kind ='scatter',diag_kind ='auto',markers = None,s = 2.5,aspect = 1,dropna = True,plot_kws = None,diag_kws = None,grid_kws = None)

hue: string(變量名) : 顏色將按照指定的變量分類

hue_order : list 設置調色板色調變量級別

palette : 調色板

vars : list 變量名稱列表,不然使用全部數值型變量的列

markers: 點樣式


 

sepal_length sepal_width petal_length petal_width species

5.1 3.5 1.4 0.2 setosa

4.9 3.0 1.4 0.2 setosa

4.7 3.2 1.3 0.2 setosa

4.6 3.1 1.5 0.2 setosa

5.0 3.6 1.4 0.2 setosa


 

 

 

PairGrid

至關於jointplot 和 JointGrid的關係,PairGrid 對矩陣散點圖有着更爲靈活的控制

__init__(data,hue = None,hue_order = None,palette = None,hue_kws = None,vars = None,x_vars = None,y_vars = None,diag_sharey = True,size = 2.5,aspect = 1,despine = True,dropna = True)

方法:

add_legend([legend_data,title,label_order])繪製一個圖例,可能將其放在軸外並調整圖形大小。

map_diag(func,** kwargs):在每一個對角線子圖上繪製具備單變量函數的圖。

map_lower(func,** kwargs):在下對角線子圖上繪製具備雙變量函數的圖。

map_upper(func,** kwargs):在上對角線子圖上繪製具備雙變量函數的圖

map_offdiag(func,** kwargs):在非對角線子圖上繪製具備雙變量函數的圖。

set(** kwargs):在每一個子圖集Axes上設置屬性。


 

 

看再屢次,都不如本身親自動手寫一次,只有在實際應用中不斷練習,思考,調整。才能理解掌握數據可視化的技能。

相關文章
相關標籤/搜索