做者|Bex T.
編譯|VK
來源|Towards Datas Sciencenode
我很喜歡DataCamp上的「Seaborn中間數據可視化」(Intermediate Data Visualization with Seaborn)這個課程。它教給新手很是棒的圖表和方法。但說到熱圖,課程的老師不知怎麼地引入了一個全新的pandas函數crosstab。而後,很快說:「crosstab是一個計算交叉表的有用函數…」python
我就在那裏不理解了。顯然,個人第一反應是查看函數的文檔。我剛開始以爲我能夠處理Matplotlib的任何文檔,可是…我錯了。.git
在我練習以後,我知道這是別人也會掙扎的事情。因此,我在這裏寫了一整篇文章。github
在本文的最後一部分中,我討論了爲何有些課程不教你像crosstab這樣的高級函數。由於若是不在具體的環境下很難使用這樣的函數,同時又保持示例的初學者級別。shell
此外,大多數課程使用小型或玩具數據集。在更復雜的數據科學環境中,這些複雜函數的好處更爲明顯,而且常常被更有經驗的pandas用戶使用。數組
在這篇文章中,我將教你如何使用crosstab以及如何在其餘相似函數中選擇它。機器學習
簡介函數
設置oop
crosstab基礎知識學習
Pandas crosstab()與pivot_table()和groupby()的比較
Pandas crosstab()的進一步定製
Pandas crosstab(),多個組
你能夠在這個GitHub repo上下載本文的notebook:https://github.com/BexTuychiev/medium_stories/tree/master/hardest_of_pandas2
# 導入必要的庫 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np # 忽略警告 import warnings warnings.filterwarnings('ignore') # 啓用多單元輸出 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all'
對於示例數據,我將使用Seaborn內置的diamonds數據集。它足夠大,而且有一些能夠用crosstab()的變量:
diamonds = sns.load_dataset('diamonds') diamonds.head()
與許多計算分組彙總統計信息的函數同樣,crosstab()能夠處理分類數據。它可用於將兩個或多個變量分組,併爲每組的給定值執行計算。固然,使用groupby()或pivot_table()能夠執行此類操做,但正如咱們稍後將要看到的,crosstab()爲你的平常工做流程帶來了許多好處。
函數接受兩個或多個列表、pandas series 或dataframe,默認狀況下返回每一個組合的頻率。我老是喜歡從一個例子開始,這樣你能夠更好地理解定義,而後我將繼續解釋語法。
crosstab()老是返回一個數據幀,下面是一個例子。dataframe是diamonds中兩個變量的交叉表:cut和color。交叉表表示取一個變量,將其組顯示爲index,取另外一個變量,將其組顯示爲columns。
pd.crosstab(index=diamonds['cut'], columns=diamonds['color'])
語法至關簡單。index用於對變量進行分組,並將其顯示爲index(行),對於列也是如此。若是沒有給定聚合函數,則每一個單元格將計算每一個組合中的觀察數。例如,左上角的單元格告訴咱們,有2834顆顏色代碼爲D並且是理想切割的鑽石,。
接下來,咱們要查看每一個組合的平均價格。crosstab()提供values參數來引入第三個要聚合的數值變量:
pd.crosstab(index=diamonds['cut'], columns=diamonds['color'], values=diamonds['price'], aggfunc=np.mean).round(0)
如今,每一個單元格包含了cut和color組合的平均價格。爲了說明咱們要計算平均價格,咱們將price列傳遞給values。請注意,始終必須同時使用values和aggfunc。不然,你將獲得一個錯誤。我還使用round()將答案四捨五入。
儘管它有點高級,可是當你將crosstab()表傳遞到seaborn的熱圖中時,你將充分利用crosstab()表的優勢。讓咱們在熱圖中看到上表:
cross = pd.crosstab(index=diamonds['cut'], columns=diamonds['color'], values=diamonds['price'], aggfunc=np.mean).round(0) sns.heatmap(cross, cmap='rocket_r', annot=True, fmt='g');
seaborn能夠自動將crosstab()錶轉換爲熱圖。我將註釋設置爲True,並用顏色條顯示熱圖。seaborn還爲列和索引名添加了樣式(fmt='g' 將數字顯示爲整數而不是科學計數)。
熱圖更容易解釋。你不想讓你的最終用戶看到一張盡是數字的表格。所以,我將在須要時將每一個crosstab()結果放入熱圖中。爲了不重複,我建立了一個有用的函數:
def plot_heatmap(cross_table, fmt='g'): fig, ax = plt.subplots(figsize=(8, 5)) sns.heatmap(cross_table, annot=True, fmt=fmt, cmap='rocket_r', linewidths=.5, ax=ax) plt.show();
在咱們繼續討論更有趣的內容以前,我想我須要澄清計算分組摘要統計的三個函數之間的區別。
我在本文的第一部分介紹了pivot_table()和groupby()的區別。對於crosstab(),這三者之間的區別在於語法和結果的形狀。讓咱們使用這三種方法計算:
# 使用 groupby() >>> diamonds.groupby(['cut', 'color'])['price'].mean().round(0) cut color Ideal D 2629.0 E 2598.0 F 3375.0 G 3721.0 H 3889.0 I 4452.0 J 4918.0 Premium D 3631.0 E 3539.0 F 4325.0 G 4501.0 H 5217.0 I 5946.0 J 6295.0 Very Good D 3470.0 E 3215.0 F 3779.0 G 3873.0 H 4535.0 I 5256.0 J 5104.0 Good D 3405.0 E 3424.0 F 3496.0 G 4123.0 H 4276.0 I 5079.0 J 4574.0 Fair D 4291.0 E 3682.0 F 3827.0 G 4239.0 H 5136.0 I 4685.0 J 4976.0 Name: price, dtype: float64 # 使用 pivot_table() diamonds.pivot_table(values='price', index='cut', columns='color', aggfunc=np.mean).round(0) # 使用 crosstab() pd.crosstab(index=diamonds['cut'], columns=diamonds['color'], values=diamonds['price'], aggfunc=np.mean).round(0)
以上是pivot_table的輸出
以上是crosstab的輸出
我想你已經知道你最喜歡的了。grouppy()返回一個序列,而另兩個返回相同的數據幀。可是,能夠將groupby系列轉換爲相同的數據幀,以下所示:
grouped = diamonds.groupby(['cut', 'color'])['price'].mean().round(0) grouped.unstack()
若是你不瞭解pivot_table()和unstack()的語法,我強烈建議你閱讀本文的第一部分。
說到速度,crosstab()比pivot_table()快,但都比groupby()慢得多:
%%timeit diamonds.pivot_table(values='price', index='cut', columns='color', aggfunc=np.mean) 11.5 ms ± 483 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) %%timeit pd.crosstab(index=diamonds['cut'], columns=diamonds['color'], values=diamonds['price'], aggfunc=np.mean) 10.8 ms ± 344 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) %%timeit diamonds.groupby(['cut', 'color'])['price'].mean().unstack() 4.13 ms ± 39.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
如你所見,即便使用unstack()連接,groupby()也比其餘兩個快3倍。這說明若是你只想分組和計算摘要統計信息,那麼應該使用相同的groupby()。當我連接其餘方法(如simple round()時,速度差甚至更大。
其他的比較主要是關於pivot_table()和crosstab()。如你所見,這兩個函數的結果的形狀是相同的。二者之間的第一個區別是crosstab()能夠處理任何數據類型。
它能夠接受任何相似數組的對象,好比列表、numpy數組、數據幀列(pandas series)。可是,pivot_table()只對dataframe有效。在一個頗有幫助的StackOverflow中,我發現若是在數據幀上使用crosstab(),它會在後臺調用pivot_table()。
接下來是參數。有些參數只存在於一個參數中,反之亦然。第一個最流行的是crosstab()的normalize。normalize接受如下選項(來自文檔):
若是傳遞了all或True,則將規範化全部值。
若是傳遞index,將規範化每一行。
若是傳遞columns,將規範化每一個列。
讓咱們看一個簡單的例子:
cross = pd.crosstab(index=diamonds['cut'], columns=diamonds['color'], normalize='all') plot_heatmap(cross, fmt='.2%')
若是傳遞all,對於每一個單元格,pandas計算總金額的百分比:
# 證實全部值加起來約等於1 >>> pd.crosstab(diamonds['cut'], diamonds['color'], normalize='all').values.sum() 1.0000000000000002
若是傳遞index或columns,則按列或按行執行相同的操做:
cross = pd.crosstab(diamonds['cut'], diamonds['color'], normalize='index') plot_heatmap(cross, fmt='.2%')
以上是按行規範化
cross = pd.crosstab(diamonds['cut'], diamonds['color'], normalize='columns') plot_heatmap(cross, fmt='.2%')
以上是按列規範化
在crosstab()中,還可使用行名和列名直接在函數內更改索引和列名。以後沒必要手動執行。當咱們一次按多個變量分組時,這兩個參數很是有用,你將在後面看到。
參數fill_value只存在於pivot_table()中。有時,當你按許多變量分組時,不可避免地會出現不一致。在pivot_table()中,可使用fill_value將它們更改成自定義值:
diamonds.pivot_table(index='color', columns='cut', fill_value=0)
可是,若是使用crosstab(),則能夠經過在dataframe上連接fillna()來實現相同的效果:
pd.crosstab(diamonds['cut'], diamonds['color']).fillna(0)
crosstab()的另外兩個有用參數是margins和margins_name(二者都存在於pivot_table()中)。設置爲True時,邊界計算每行和每列的和。咱們來看一個例子:
pd.crosstab(index=diamonds['cut'], columns=diamonds['clarity'], margins=True)
pandas自動添加最後一行和最後一列,默認名稱爲All。margins_name能夠控制名字:
pd.crosstab(index=diamonds['cut'], columns=diamonds['clarity'], margins=True, margins_name='Total Number')
右下角的單元格將始終包含觀察的總數,或者若是「normalize」設置爲True,則爲1:
pd.crosstab(index=diamonds['cut'], columns=diamonds['clarity'], margins=True, margins_name='Total Percentage', normalize=True)
請注意,若是將margins設置爲True,則熱圖是無用的。
對於index和columns參數,能夠傳遞多個變量。結果將是一個具備多級索引的數據幀。此次咱們插入全部的分類變量:
pd.crosstab(index=[diamonds['cut'], diamonds['clarity']], columns=diamonds['color'])
對於index,我傳遞了color和cut。若是我把它們傳遞給列,結果將是一個包含40列的數據幀。若是你注意的話,多級索引如預期的那樣命名爲cut和clear。對於存在多級索引或列名的狀況,crosstab()有方便的參數來更改它們的名稱:
pd.crosstab(index=[diamonds['cut'], diamonds['clarity']], columns=diamonds['color'], rownames=['Diamond Cut', 'Clarity']).head()
傳遞相應名稱的列表,以將索引名稱更改成行名稱。這個過程對於控制列名的colnames是相同的。
有一件事讓我很驚訝,若是你把多個函數傳遞給aggfunc,pandas就會拋出一個錯誤。一樣,StackOverflow上的夥計們認爲這是一個bug,並且已經有6年多沒有解決過了。
最後要注意的是,在pivot_table()和crosstab()中,都有一個dropna參數,若是設置爲True,則會刪除包含全部nan的列或行。
原文連接:https://towardsdatascience.com/meet-the-hardest-functions-of-pandas-part-ii-f8029a2b0c9b
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/