如下默認全部的操做都先導入了numpy、pandas、matplotlib、seaborn函數
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
折線圖能夠用來表示數據隨着時間變化的趨勢spa
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019] y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]
plt.plot(x, y) plt.show()
df = pd.DataFrame({'x': x, 'y': y}) sns.lineplot(x="x", y="y", data=df) plt.show()
直方圖是比較常見的視圖,它是把橫座標等分紅了必定數量的小區間,而後在每一個小區間內用矩形條(bars)展現該區間的數值3d
a = np.random.randn(100) s = pd.Series(a)
plt.hist(s) plt.show()
sns.distplot(s, kde=False) plt.show() sns.distplot(s, kde=True) plt.show()
條形圖能夠幫咱們查看類別的特徵。在條形圖中,長條形的長度表示類別的頻數,寬度表示類別。code
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5'] y = [5, 4, 8, 12, 7]
plt.bar(x, y) plt.show()
plt.show()
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5'] y = [5, 4, 8, 12, 7] plt.barh(x, y) plt.show()
nums = [25, 37, 33, 37, 6] labels = ['High-school','Bachelor','Master','Ph.d', 'Others'] plt.pie(x = nums, labels=labels) plt.show()
箱線圖由五個數值點組成:最大值 (max)、最小值 (min)、中位數 (median) 和上下四分位數 (Q3, Q1)。
能夠幫咱們分析出數據的差別性、離散程度和異常值等。orm
# 生成0-1之間的10*4維度數據 data=np.random.normal(size=(10,4)) lables = ['A','B','C','D'] # 用Matplotlib畫箱線圖 plt.boxplot(data,labels=lables) plt.show()
# 用Seaborn畫箱線圖 df = pd.DataFrame(data, columns=lables) sns.boxplot(data=df) plt.show()
力圖,英文叫 heat map,是一種矩陣表示方法,其中矩陣中的元素值用顏色來表明,不一樣的顏色表明不一樣大小的值。經過顏色就能直觀地知道某個位置上數值的大小。blog
flights = sns.load_dataset("flights") data=flights.pivot('year','month','passengers') sns.heatmap(data) plt.show()
經過 seaborn 的 heatmap 函數,咱們能夠觀察到不一樣年份,不一樣月份的乘客數量變化狀況,其中顏色越淺的表明乘客數量越多ip
散點圖的英文叫作 scatter plot,它將兩個變量的值顯示在二維座標中,很是適合展現兩個變量之間的關係。get
N = 1000 x = np.random.randn(N) y = np.random.randn(N)
plt.scatter(x, y,marker='x') plt.show()
df = pd.DataFrame({'x': x, 'y': y}) sns.jointplot(x="x", y="y", data=df, kind='scatter'); plt.show()
蜘蛛圖是一種顯示一對多關係的方法,使一個變量相對於另外一個變量的顯著性是清晰可見
labels=np.array([u"推動","KDA",u"生存",u"團戰",u"發育",u"輸出"]) stats=[83, 61, 95, 67, 76, 88] # 畫圖數據準備,角度、狀態值 angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False) stats=np.concatenate((stats,[stats[0]])) angles=np.concatenate((angles,[angles[0]])) # 用Matplotlib畫蜘蛛圖 fig = plt.figure() ax = fig.add_subplot(111, polar=True) ax.plot(angles, stats, 'o-', linewidth=2) ax.fill(angles, stats, alpha=0.25) # 設置中文字體 font = FontProperties(fname=r"/System/Library/Fonts/PingFang.ttc", size=14) ax.set_thetagrids(angles * 180/np.pi, labels, FontProperties=font) plt.show()
二元變量分佈能夠看兩個變量之間的關係
tips = sns.load_dataset("tips") tips.head(10) #散點圖 sns.jointplot(x="total_bill", y="tip", data=tips, kind='scatter') #核密度圖 sns.jointplot(x="total_bill", y="tip", data=tips, kind='kde') #Hexbin圖 sns.jointplot(x="total_bill", y="tip", data=tips, kind='hex') plt.show()
面積圖又稱區域圖,強調數量隨時間而變化的程度,也可用於引發人們對總值趨勢的注意。
堆積面積圖還能夠顯示部分與總體的關係。折線圖和麪積圖均可以用來幫助咱們對趨勢進行分析,當數據集有合計關係或者你想要展現局部與總體關係的時候,使用面積圖爲更好的選擇。
df = pd.DataFrame( np.random.rand(10, 4), columns=['a', 'b', 'c', 'd']) # 堆面積圖 df.plot.area() # 面積圖 df.plot.area(stacked=False)
六邊形圖將空間中的點聚合成六邊形,而後根據六邊形內部的值爲這些六邊形上色。
df = pd.DataFrame( np.random.randn(1000, 2), columns=['a', 'b']) df['b'] = df['b'] + np.arange(1000) # 關鍵字參數gridsize;它控制x方向上的六邊形數量,默認爲100,較大的gridsize意味着更多,更小的bin df.plot.hexbin(x='a', y='b', gridsize=25)