pandas的DataFrame的行列選擇

時間 2019-12-08

標籤 pandas dataframe 行列選擇欄目 Spark 简体版

原文原文鏈接

Pandas可根據列名稱選取，還能夠根據列所在的position（數字，在第幾行第幾列，注意pandas行列的position是從0開始）選取。相關函數以下：python

1）loc，基於列label，可選取特定行（根據行index）；函數

2）iloc，基於行/列的position；spa

3）at，根據指定行index及列label，快速定位DataFrame的元素；code

4）iat，與at相似，不一樣的是根據position來定位的；索引

5）ix，爲loc與iloc的混合體，既支持label也支持position；utf-8

The simplified rules of indexing areget

Use loc for label-based indexing
Use iloc for positional indexing

# -*- coding:utf-8 -*-
import pandas as pd
df = pd.read_csv( './iris_training.csv', low_memory=False)
print(df.head( 10))
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
1 5.0 2.3 3.3 1.0 1
2 4.9 2.5 4.5 1.7 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0
6 5.4 3.4 1.5 0.4 0
7 6.9 3.1 5.1 2.3 2
8 6.7 3.1 4.4 1.4 1
9 5.1 3.7 1.5 0.4 0"""

行選擇

Pandas進行行選擇通常有三種方法：string

連續多行的選擇用相似於python的列表切片
loc經過行標籤索引來肯定行的
iloc經過行號索引來肯定行

# 第一種，使用相似於python的列表切片
print(df[ 0:5])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
1 5.0 2.3 3.3 1.0 1
2 4.9 2.5 4.5 1.7 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0 """
print(df[ 0:5:2])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
2 4.9 2.5 4.5 1.7 2
4 5.7 3.8 1.7 0.3 0 """

# 第三種，按照指定的位置選擇一行多多行，使用iloc[]方法
# .iloc能夠不加第幾列，則是行選擇
# 在上面的數據中，使用iloc[]和loc[]的效果是同樣的，由於索引號都是從0開始而且接二連三
df2 = df.drop([ 1,2], axis=0)
print(df2.head( 10))
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0
6 5.4 3.4 1.5 0.4 0
7 6.9 3.1 5.1 2.3 2
8 6.7 3.1 4.4 1.4 1
9 5.1 3.7 1.5 0.4 0
10 5.2 2.7 3.9 1.4 1
11 6.9 3.1 4.9 1.5 1 """
print(df2.loc[[ 0, 1]])
"""
Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2.0
1 NaN NaN NaN NaN NaN"""
print(df2.loc[ 0:5])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0
4 5.7 3.8 1.7 0.3 0
5 4.4 3.2 1.3 0.2 0 """
print(df2.iloc[[ 0, 1]])
"""
120 4 setosa versicolor virginica
0 6.4 2.8 5.6 2.2 2
3 4.9 3.1 1.5 0.1 0 """

列選擇

行列選擇

# print(df.loc[1:3, [2, 3]]) #.loc僅支持列名操做
# KeyError: 'None of [[2, 3]] are in the [columns]'
print(df.loc[ 1:3, ['120', 'setosa']])
"""
120 setosa
1 5.0 3.3
2 4.9 4.5
3 4.9 1.5 """
print(df.loc[ 1:3, '120': 'setosa'])
"""
120 4 setosa
1 5.0 2.3 3.3
2 4.9 2.5 4.5
3 4.9 3.1 1.5 """
print(df.iloc[ 1:3, [1, 2]])
"""
4 setosa
1 2.3 3.3
2 2.5 4.5 """
print(df.iloc[ 1:3, 1:3])
"""
4 setosa
1 2.3 3.3
2 2.5 4.5 """

總結

1）.loc,.iloc,.ix,只加第一個參數如.loc([1,2]),.iloc([2:3]),.ix[2]…則進行的是行選擇pandas

2）.loc,.at，選列是隻能是列名，不能是positionit

3）.iloc,.iat，選列是隻能是position，不能是列名

4）df[]只能進行行選擇，或列選擇，不能同時進行列選擇，列選擇只能是列名。

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<