內容目錄python
數據準備數組
# 導入相關庫 import numpy as np import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name") data = { "age": [18, 30, np.nan, 40, np.nan, 30], "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "], "sex": [None, "male", "female", "male", np.nan, "unknown"], "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"] } user_info = pd.DataFrame(data=data, index=index) # 將出生日期轉爲時間戳 user_info["birth"] = pd.to_datetime(user_info.birth) user_info Out[54]: age city sex birth name Tom 18.0 Bei Jing None 2000-02-10 Bob 30.0 Shang Hai male 1988-10-17 Mary NaN Guang Zhou female NaT James 40.0 Shen Zhen male 1978-08-08 Andy NaN NaN NaN NaT Alice 30.0 unknown 1988-10-17
#get方法 user_info.get('age') Out[55]: name Tom 18.0 Bob 30.0 Mary NaN James 40.0 Andy NaN Alice 30.0 Name: age, dtype: float64 user_info.get('age').get('Tom') Out[56]: 18.0
user_info.age Out[57]: name Tom 18.0 Bob 30.0 Mary NaN James 40.0 Andy NaN Alice 30.0 Name: age, dtype: float64 user_info.age.Tom Out[58]: 18.0
切片對於 Series 來講,經過切片能夠完成選擇指定的行,對於 DataFrame 來講,經過切片能夠完成選擇指定的行或者列,來看看怎麼玩吧函數
# 篩選出第二行第一列的數據 user_info.iloc[1, 0] """篩選行""" # 獲取年齡的前兩行 user_info.age[:2] #獲取全部信息的前兩行 user_info[:2] # 全部信息每兩行選擇一次數據 user_info[::2] # 對全部信息進行反轉 user_info[::-1] """篩選列""" user_info['age'] user_info[["city", "age"]]
經過切片操做能夠完成篩選行或者列,如何同時篩選出行和列呢?
經過 iloc 便可實現, iloc 支持傳入行和列的篩選器,並用 , 隔開。不管是行或者裏篩選器,均可覺得如下幾種狀況:spa
先來看下前3種的用法。對象
# 篩選出第一行數據 user_info.iloc[0] # 篩選出第二行第一列的數據 user_info.iloc[1, 0] # 篩選出第二行、第一行、第三行對應的第一列的數據 user_info.iloc[[1, 0, 2], 0] user_info.iloc[0:2,0] # 篩選出第一行至第三行以及第一列至第二列的數據 user_info.iloc[0:3, 0:2] # 篩選出第一列至第二列的數據 user_info.iloc[:, 0:2]
雖然經過 iloc 能夠實現同時篩選出行和列,可是它接收的是輸入,很是不直觀, 經過 loc 可實現傳入名稱來篩選數據,loc 支持傳入行和列的篩選器,並用 , 隔開。不管是行或者裏篩選器,均可覺得如下blog
幾種狀況:索引
先來看下前3種的用法。ci
# 篩選出名稱爲 Tom 的數據一行數據 user_info.loc["Tom"] # 篩選出名稱爲 Tom 的年齡 user_info.loc["Tom", "age"] # 篩選出名稱在 ["Bob", "Tom"] 中的兩行數據 user_info.loc[["Bob", "Tom"]] # 篩選出索引名稱在 Tom 到 Mary 之間的數據 user_info.loc["Tom": "Mary"] # 篩選出年齡這一列數據 user_info.loc[:, ["age"]] # 篩選出全部 age 到 birth 之間的這幾列數據 user_info.loc[:, "age": "birth"] #注:經過名稱來篩選時,傳入的切片是左右都包含的。
經過布爾操做咱們同樣能夠進行篩選操做,布爾操做時,& 對應 and,| 對應 or,~ 對應 not。當有多個布爾表達式時,須要經過小括號來進行分組。get
user_info[user_info.age > 20] # 篩選出年齡在20歲以上,而且性別爲男性的數據 user_info[(user_info.age > 20) & (user_info.sex == "male")] # 篩選出性別不爲 unknown 的數據 user_info[~(user_info.sex == "unknown")] user_info.loc[user_info.age > 20, ["age"]]
Series 包含了 isin 方法,它可以返回一個布爾向量,用於篩選數據。pandas
# 篩選出性別屬於 male 和 female的數據 user_info[user_info.sex.isin(["male", "female"])] #對於索引來講,同樣可使用 isin 方法來篩選。 user_info[user_info.index.isin(["Bob"])]
loc、iloc、切片操做都支持接收一個 callable 函數,callable必須是帶有一個參數(調用Series,DataFrame)的函數,而且返回用於索引的有效輸出。
user_info[lambda df: df["age"] > 20] user_info.loc[lambda df: df.age > 20, lambda df: ["age"]] user_info.iloc[lambda df: [0,5], lambda df: [0]] user_info.iloc[0:5, lambda df: [0]]