我必須對你說實話:當我學習數據科學時,我徹底低估了繪圖的重要性。沒錯,那時一切都一團糟:我從頭開始學習 python、熟悉了全部可能的算法、理解了全部東西背後的數學原理,可是個人繪圖技巧很糟糕。python
爲何會這樣?咱們老是在作一樣的事情。你知道的:pairplots,distplots,qqplots…你在可視化數據時使用圖表是理解數據的惟一方法。這些都是很是有用、通用和默認的圖表。因此,複製和粘貼一堆代碼成了我時最常作的事情。算法
對於個人項目來講,可交付結果老是一個模型。因爲數小時的數據清洗和特徵工程,極可能會有一個不錯的分數。我是我項目的惟一參與者,個人教授們在他們給我這些數據時就已經知道關於數據的一切。那我做圖是爲了給誰看?我本身?好吧…不必!對不?我比任何人都清楚每一步在實現什麼,我不須要向任何人解釋。機器學習
我相信這多是我在數據科學中的最大失敗:沒有充分考慮可解釋性和可解釋性的重要性。你多是個天才,但若是你不能向第三方解釋你是如何獲得這些美妙的結論,以及爲何獲得這些結論,那麼你可能什麼都不是。工具
例如,在 Ravelin Technology,咱們提供基於機器學習的欺詐預防解決方案。想象一下,你告訴一個客戶,你封鎖了 x% 的交易,只是由於機器學習模型是這樣說的,但你根本不知道爲何要這樣作會怎樣?固然,對於任何試圖最大化環化率和銷售狀況的電子商務來講,這都不是頗有吸引力,對吧?想象一下,在醫療保健等其餘敏感領域出現一樣的狀況……那簡直是災難即未來臨的千兆。學習
如今,除了與業務相關的問題,甚至從法律的角度或者從你的業務只關心預測的結果來看——無論你如何獲得它們,理解一個算法其實是如何工做的對你會有幫助。你不只能更好地向客戶解釋輸出的緣由,還能更好地協調數據科學家和分析師的工做。字體
可以向人們解釋你的思惟過程是任何數據相關工做的關鍵部分。在這種狀況下,複製和粘貼圖表是不夠的,圖表的個性化變得很是重要。this
在這篇文章的剩餘部分,我想和你們分享 10 個基本的中級和高級的繪圖工具。我發如今現實生活中,當涉及到繪圖解釋你的數據時,這些工具很是有用。spa
我將在下面幾行中引用的庫:3d
Seaborn:import seaborn as sns matplotlib:matplotlib.pyplot as plt
此外,若是須要,能夠設置樣式和你喜歡的格式,例如:code
plt.style.use('fivethirtyEight') %config inlinebackend.figure\format='retina' %matplotlib inline
說到這裏,讓咱們直接跳到這些工具:
有時,你會想在一個圖表中繪製出不一樣的東西。但有時,你會但願在同一行或列中拋出不一樣的圖表,相互補充和/或顯示不一樣的信息片斷。
爲此,這裏給出一個很是基本但必不可少的工具:subplots。如何使用它?很簡單。matplotlib 中的圖表是一種結構,能夠這樣使用:
一般,這些東西是在代碼後臺自動設置的,可是若是要繪製多個圖形,咱們只須要按照如下方式建立圖形和軸對象:
fig, ax = plt.subplots(ncols=number_of_cols, nrows=number_of_rows, figsize=(x,y)
例如,若是設置 ncols=1 和 nrows=2,咱們將建立一個由 x,y 軸組成的圖形,其中只有兩個圖表,分佈在兩個不一樣的行中。剩下的惟一事情是從 0 開始使用'ax'參數指定不一樣繪圖的順序。例如:
sns.scatterplot(x=horizontal_data_1, y=vertical_data_1, ax=ax[0]); sns.scatterplot(x=horizontal_data_2, y=vertical_data_2, ax=ax[1]);
這可能看起來沒有必要,或者不是頗有幫助,可是你沒法想象,若是你的圖表有點混亂,或者看到數據的人對此不是很熟悉,你會被問多少次 x/y 軸表明的是什麼。按照前面的兩個繪圖示例,若是要爲軸設置特定名稱,則必須使用如下代碼行:
ax[0].set(x label='My X Label',ylabel='My Y Label') ax[1].set(xlabel='My Second X Label',ylabel='My Second and Very Creative Y Label')
若是咱們要將數據呈現給第三方,另外一個基本但關鍵的要點是使用標題,它和以前的軸標記很是類似:
ax[0].title.set_text(‘This title has to be very clear and explicative’) ax[1].title.set_text(‘And this title has to explain what’s different in this chart’
一般狀況下,僅僅在圖表的左右兩側使用刻度自己並非很清楚。在圖上標註值對於解釋圖表很是有用。
假設如今咱們使用 subplots,咱們有幾個圖表,其中一個是位於 ax[0] 位置的 seaborn 的 barplot。在這種狀況下,在條形圖中每一個條上獲取註釋的代碼要複雜一些,但很容易實現:
for p in ax[0].patches: ax[0].annotate(「%.2f」 % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()), ha=’center’, va=’center’, fontsize=12, color=’white’, xytext=(0, -10), textcoords=’offset points’
對於圖表中的每一個「patch」或條形圖,直到「ha」參數獲取條形圖的位置、高度和寬度爲止,以便將值註釋放在正確的位置。以相似的方式,咱們還能夠指定註釋的對齊方式、字體大小和顏色,而「xytext」參數指示咱們是否要在某個 x 或 y 方向移動註釋。在上面的例子中,咱們將在 y 軸上向下移動註釋文本。
在某些狀況下,在一段時間或一系列的值中,咱們可能測量了不一樣種類的物體。例如,假設咱們測量 6 個月以來狗和貓的體重。在實驗結束時,咱們想畫出每隻動物的體重,分別用藍色和紅色區分貓和狗。爲此,在大多數傳統繪圖中,咱們可使用參數「hue」爲元素提供顏色列表。
舉個例子:
weight = [5,4,8,2,6,2] month = [‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’] animal_type = [‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’] hue = [‘blue’,’red’,’red’,’blue’,’blue’,’blue’] sns.scatterplot(x=month, y=weight, hue=hue);
使用上面的相同示例,咱們還可使用從 1 到 5 的刻度表示圖表中動物的大小。將此額外指標添加到繪圖中的一個好選擇是修改散點圖的大小,經過「size」參數將大小指定給新的附加向量,並使用「size」調整它們之間的關係:
size = [2,3,5,1,4,1] sns.scatterplot(x=month, y=weight, hue=hue, size=size, sizes= (50,300));
順便說一下,若是如上圖所示,圖例使繪圖更難閱讀,你能夠將「legend」參數設置爲 false。
在現實生活中的許多狀況下,數據高於或低於某個閾值多是問題提示信號或錯誤警告。若是要在繪圖中清楚地顯示,可使用如下命令添加一行:
ax[0].axvline(32,0,c='r')
加在哪裏?
ax[0] 將是咱們要在其中插入行的圖表
32 將是繪製線的值
c = 'r' 表示圖表將是紅色的
若是咱們使用的是 subplots,那麼將 axvline 添加到相應的 axe 就很簡單,如上面的示例所示。可是,若是不使用 subplots,則應執行如下操做:
g=sns.scatterplot(x=month,y=weight,hue=hue,legend=false) g.axvline(2,c='r') plt.show()
這多是最簡單,但也是最有用的技巧之一。
有時咱們只須要在圖表中添加更多信息,除了在繪圖的右 y 軸上添加新的度量以外,沒有其餘方法能夠繞過它:
ax2=ax[0].twinx()
如今能夠添加任何要將「ax」參數指向「ax2」的圖表
sns.lineplot(x=month, y=average_animal_weight, ax=ax2
請注意,這個例子再次假設你使用的是 subplots。若是沒有,你應該遵循與前一點相同的邏輯:
g = sns.scatterplot(x=month, y=weight, hue=hue, legend=False) g.axvline(2,c=’r’) ax2 = g.twinx() sns.lineplot(x=month, y=average_animal_weight, ax=ax2, c=’y’) plt.show()
請注意,要使其工做,你應該爲兩個圖表中的 x 軸設置始終相同的數據。不然,它們就不匹配了。
在同一軸上重疊圖表很容易:咱們只須要爲全部想要的繪圖編寫代碼,而後,咱們能夠簡單地調用'plt.show()'將它們所有繪製在一塊兒:
a=[1,2,3,4,5] b=[4,5,6,2,2] c=[2,5,6,2,1] sns.lineplot(x=a,y=b,c='r') sns.lineplot(x=a,y=c,c='b') plt.show()
然而,有時重疊會致使混淆,因此咱們可能須要作一些改進,讓人更容易理解。
例如,假設你但願在同一個圖形中重疊你採集的兩個不一樣樣本的身高分佈:一個來自你的同事,另外一個來自當地的籃球隊。最好添加一些個性化的東西,如不一樣的顏色,並添加一個圖例,代表它們具體表明的是哪個。好吧,簡單點:
設置「colour」標籤,咱們能夠爲每個設置一種特定的顏色。請注意,有時此參數能夠更改成簡單的「c」
使用「label」參數,咱們能夠經過簡單地調用 x.legend()用來指定要顯示的任何文本
舉個例子:
g = sns.distplot(workmates_height, color=’b’, label=’Workmates’) sns.distplot(basketball_team, color=’r’, ax=g, label=’Basket team’) g.legend() plt.show()
最後是一個很是特殊的工具~若是你喜歡使用條形圖,你可能會面臨這樣的問題:你的條形圖沒有按照你想要的順序排列。在這種狀況下,有一個簡單的修復方法,將一個帶有你想要的特定順序的列表傳遞給「order」參數:
a=['second','first','third'] b=[15,10,20] sns.barplot(x=a,y=b,order=['first','second','third']);
繪圖自己就是一個世界,根據個人經驗,提升你技能的最好方法就是練習。但我但願這些工具和技巧能幫助你作好現實中數據科學的工做,就像當初幫助我同樣。