pandas DataFrame apply()函數(2)

時間 2019-11-06

標籤 pandas dataframe apply 函數欄目 Spark 简体版

原文原文鏈接

上一篇pandas DataFrame apply()函數(1)說了如何經過apply函數對DataFrame進行轉換,獲得一個新的DataFrame.html

這篇介紹DataFrame apply()函數的另外一個用法,獲得一個新的pandas Series:app

apply()中的函數接收的參數爲一行(列),把一行(列)經過計算,返回一個值,最後返回一個Series:函數

下圖展現了把DataFrame的各列轉換成一個數,最後返回成一個Series:post

舉個栗子:url

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'a': [4, 5, 3, 1, 2],
    'b': [20, 10, 40, 50, 30],
    'c': [25, 20, 5, 15, 10]
})


# 對整個DataFrame應用np.mean()函數,取各列的平均值,返回一個包含了各列平均值的Series  
print df.apply(np.mean)

# 結果:
a     3.0
b    30.0
c    15.0
dtype: float64

# 對整個DataFrame應用np.max()函數,取各列的最大值,返回一個包含了各列最大值的Series

print df.apply(np.max) 

# 結果: a 5 b 50 c 25 dtype: int64

若是想要返回各列中第二大的數字組成的Series:spa

def get_second_largest(se):
    sorted_se = se.sort_values(ascending=False)
    return sorted_se.iloc[1]
    
def second_largest(df):
    return df.apply(get_second_largest)
    
print(second_largest(df))

a     4
b    40
c    20
dtype: int64

相關標籤/搜索