Pandas系列（八）-篩選工具介紹

時間 2019-12-06

標籤 pandas 系列篩選工具介紹简体版

原文原文鏈接

內容目錄python

1. 字典式 get 訪問
2. 屬性訪問
3. 切片操做
4. 經過數字篩選行和列
5. 經過名稱篩選行和列
6. 布爾索引
7. isin 篩選
8. 經過Callable篩選

數據準備數組

# 導入相關庫
import numpy as np
import pandas as pd

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
    "age": [18, 30, np.nan, 40, np.nan, 30],
    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
    "sex": [None, "male", "female", "male", np.nan, "unknown"],
    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 將出生日期轉爲時間戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info
Out[54]: 
        age        city      sex      birth
name                                       
Tom    18.0   Bei Jing      None 2000-02-10
Bob    30.0  Shang Hai      male 1988-10-17
Mary    NaN  Guang Zhou   female        NaT
James  40.0   Shen Zhen     male 1978-08-08
Andy    NaN         NaN      NaN        NaT
Alice  30.0              unknown 1988-10-17

1. 字典式 get 訪問

#get方法
user_info.get('age') 
Out[55]: 
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
user_info.get('age').get('Tom')
Out[56]: 18.0

2. 屬性訪問

user_info.age
Out[57]: 
name
Tom      18.0
Bob      30.0
Mary      NaN
James    40.0
Andy      NaN
Alice    30.0
Name: age, dtype: float64
user_info.age.Tom
Out[58]: 18.0

　3.切片

　　切片對於 Series 來講，經過切片能夠完成選擇指定的行，對於 DataFrame 來講，經過切片能夠完成選擇指定的行或者列，來看看怎麼玩吧函數

# 篩選出第二行第一列的數據
user_info.iloc[1, 0]
"""篩選行"""
# 獲取年齡的前兩行
user_info.age[:2]
#獲取全部信息的前兩行
user_info[:2]
# 全部信息每兩行選擇一次數據
user_info[::2]
# 對全部信息進行反轉
user_info[::-1]
"""篩選列"""
user_info['age']
user_info[["city", "age"]]

　4. 經過數字篩選行和列

　　經過切片操做能夠完成篩選行或者列，如何同時篩選出行和列呢？
　　經過 iloc 便可實現， iloc 支持傳入行和列的篩選器，並用 , 隔開。不管是行或者裏篩選器，均可覺得如下幾種狀況：spa

一個整數，如 2
一個整數列表，如 [2, 1, 4]
一個整數切片對象，如 2:4
一個布爾數組
一個callable

先來看下前3種的用法。對象

# 篩選出第一行數據
user_info.iloc[0]
# 篩選出第二行第一列的數據
user_info.iloc[1, 0]
# 篩選出第二行、第一行、第三行對應的第一列的數據
user_info.iloc[[1, 0, 2], 0]
user_info.iloc[0:2,0]
# 篩選出第一行至第三行以及第一列至第二列的數據
user_info.iloc[0:3, 0:2]
# 篩選出第一列至第二列的數據
user_info.iloc[:, 0:2]

　　5. 經過名稱篩選行和列

　　雖然經過 iloc 能夠實現同時篩選出行和列，可是它接收的是輸入，很是不直觀，經過 loc 可實現傳入名稱來篩選數據，loc 支持傳入行和列的篩選器，並用 , 隔開。不管是行或者裏篩選器，均可覺得如下blog

　　幾種狀況：索引

一個索引的名稱，如："Tom"
一個索引的列表，如：["Bob", "Tom"]
一個標籤範圍，如："Tom": "Mary"
一個布爾數組
一個callable

先來看下前3種的用法。ci

# 篩選出名稱爲 Tom 的數據一行數據
user_info.loc["Tom"]
# 篩選出名稱爲 Tom 的年齡
user_info.loc["Tom", "age"]
# 篩選出名稱在 ["Bob", "Tom"] 中的兩行數據
user_info.loc[["Bob", "Tom"]]
# 篩選出索引名稱在 Tom 到 Mary 之間的數據
user_info.loc["Tom": "Mary"]
# 篩選出年齡這一列數據
user_info.loc[:, ["age"]]
# 篩選出全部 age 到 birth 之間的這幾列數據
user_info.loc[:, "age": "birth"]
#注：經過名稱來篩選時，傳入的切片是左右都包含的。

　　6. 布爾索引

　　經過布爾操做咱們同樣能夠進行篩選操做，布爾操做時，& 對應 and，| 對應 or，~ 對應 not。當有多個布爾表達式時，須要經過小括號來進行分組。get

user_info[user_info.age > 20]
# 篩選出年齡在20歲以上，而且性別爲男性的數據
user_info[(user_info.age > 20) & (user_info.sex == "male")]
# 篩選出性別不爲 unknown 的數據
user_info[~(user_info.sex == "unknown")]
user_info.loc[user_info.age > 20, ["age"]]

　　7.isin 篩選

　　Series 包含了 isin 方法，它可以返回一個布爾向量，用於篩選數據。pandas

# 篩選出性別屬於 male 和 female的數據
user_info[user_info.sex.isin(["male", "female"])]
#對於索引來講，同樣可使用 isin 方法來篩選。
user_info[user_info.index.isin(["Bob"])]

　　8. 經過Callable篩選

　　loc、iloc、切片操做都支持接收一個 callable 函數，callable必須是帶有一個參數（調用Series，DataFrame）的函數，而且返回用於索引的有效輸出。

user_info[lambda df: df["age"] > 20]
user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
user_info.iloc[lambda df: [0,5], lambda df: [0]]
user_info.iloc[0:5, lambda df: [0]]

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。