pandas模塊(很詳細歸類),pd.concat(後續補充)

6.12自我總結

一.pandas模塊

import pandas as pd約定俗稱爲pdpython

1.模塊官方文檔地址

https://pandas.pydata.org/pandas-docs/stable/?v=20190307135750app

2.對一維的數據處理成列表

1.pd.Serirs功能

import numpy as np
import pandas as pd

arr = np.array([1, 2, 3, 4, np.nan, ])
s = pd.Series(arr)
print(s)
#也能夠不轉換,可是轉換後能夠減小內存,儘可能進行轉換
# arr = np.array([1, 2, 3, 4, np.nan, ])
s = pd.Series([1, 2, 3, 4, np.nan, ])
print(s)

3.對二維數據處理成列表

1.pd.DataFrame功能

df = pd.DataFrame(數據內容,index=縱座標,columns=橫座標)#數據內容必須是列表或者np.array格式,儘可能用np.array格式減小內存
#生成的數據列表預約俗稱最好命名成df
#對df的取值

2.pd.DataFrame參數表

屬性 詳解
dtype 查看數據類型
index 查看行序列或者索引
columns 查看各列的標籤
values 查看數據框內的數據,也即不含表頭索引的數據
describe 查看數據每一列的極值,均值,中位數,只可用於數值型數據
transpose 轉置,也可用T來操做
sort_index 排序,可按行或列index排序輸出
sort_values 按數據值來排序

4.df進行取值和簡單處理

1.df.index

取縱座標code

2.df.columns

取橫座標對象

3.df.values

取填入的數據而且爲array格式排序

4.df.describe()

計數列表的各個列的個數,最大值,最小值等等索引

5.df.T

橫縱座標進行對調內存

6.df.sort_index(axis=0)

根據axis=0或者1按照橫座標或者縱座標進行排序文檔

7.df.sort_values('按照的對象名稱')

按照值進行排序,默認是豎着排序,也能夠經過設置axis=0或者1進行修改,默認升序get

8.df裏的值按行取行

用切片進行df[0:1]取第一行,可是開始的話橫縱座標是不算在裏面的pandas

df.loc[開始的縱座標名稱:結束的縱座標名稱]

9.df裏的值按列取取列

取某一行,df[這行的對應的橫座標]

取多行,df[[第一列的對應的橫座標,第二列的對應的橫座標]]以此類推

10.df裏面按行取值

按行取值df.iloc[2, 1] 第3行第二個

11.df取某個區域

df.iloc[1:4, 1:4] 橫座標是,第2個到第5個,縱向是第二個到第五個

12.邏輯取值

df[df['c1'] > 0] 結合上面取值進行判斷

13.替換值

結合上面取值進行替換

5.df.dropna

1.df.dropna(axis=1)

axis進行行列選擇,橫着加仍是豎着加

2.df.dropna(thresh=4)

刪除行不爲4個值的

3.df.dropna(subset=['c2'])

刪除c2中有NaN值的數據

6.df重空值進行添加

df.fillna(value=10)空值填充10

7.df進行合併

1.pd.concat((df1, df2), axis=1)

合併行列均可以由axis控制

2.df1.append(df2)

append只能合併列

相關文章
相關標籤/搜索