（1）pandas 基礎教程

時間 2019-12-09

標籤 pandas 基礎教程简体版

原文原文鏈接

步驟一、環境準備

右擊桌面上選擇【Open in Terminal】打開終端。
在彈出的終端中輸入【ipython】進入Python的解釋器中，如圖1所示。python

圖1 ipython解釋器

步驟二、導入所須要的包

導入實驗經常使用的python包。如圖2所示。
【import pandas as pd】pandas用來作數據處理。
【import numpy as np】numpy用來作高維度矩陣運算.
【import matplotlib.pyplot as plt】matplotlib用來作數據可視化。dom

圖2 導入所須要的包

步驟三、建立對象

經過傳遞一個list對象來建立一個Series,pandas會默認建立整型索引，如圖3所示。
【s = pd.Series([1,3,5,np.nan,6,8]】將一個list傳入到Series對象
【s】查看s的值函數

圖3 建立Series對象

經過傳遞一個 numpy array，時間索引以及列標籤來建立一個 DataFrame，如圖4所示。
【datas = pd.date_range(‘20170101’, periods=6)】生成20170101-20170106 六天的日期
【datas】查看生成的數據
【df = pd.DataFrame(np.random.randn(6,4), index=datas, columns=list(‘ABCD’))】以時間爲索引以及ABCD爲列標籤建立一個DataFrame對象
【df】查看生成的DataFrame對象spa

圖4 建立DataFrame對象

經過傳遞一個可以被轉換成相似序列結構的字典對象來建立一個DataFrame。如圖5所示：
【
df2 = pd.DataFrame({ ‘A’ : 1.,
‘B’ : pd.Timestamp(‘20170101’),
‘C’ : pd.Series(1,index=list(range(4)),dtype=’float32’),
‘D’ : np.array([3] * 4,dtype=’int32’),
‘E’ : pd.Categorical([「test」,」train」,」test」,」train」]),
‘F’ : ‘foo’ })
】生成一個字典對象，並傳遞生成一個DataFrame
【df2】查看生成的DataFrame
【df2.dtype】查看不一樣列的數據類型對象

圖5 傳遞字典生成DataFrame對象

步驟四、查看數據

查看 DataFrame 中頭部和尾部的行，如圖6所示。
【df.head()】查看dataFrame的前五行
【df.tail(3)】查看dataFrame的後三行排序

圖6 查看數據1

查看df的索引，列名稱和底層的numpy數據，如圖7所示。
【df.index】查看dataFrame的索引。
【df.columns】查看dataFrame的列名稱
【df.values】查看dataFrame底層的數據索引

圖7 查看數據2

describe()函數對於數據的快速統計彙總，如圖8所示
【df.describe()】對數據進行快速彙總three

圖8 對數據彙總

對數據的轉置,如圖9所示。
【df.T】ip

圖9 對數據的轉置

對數據的排序，如圖10所示。
【df.sort_index(axis=1, ascending=False)】按軸進行排序
【df.sort_values(by=’B’)】按值進行排序pandas

圖10 對數據的排序

步驟五、數據的選擇

對數據的獲取，如圖11所示。
【df[‘A’]】選擇一個單獨的列，返回一個Series
【df[0:3]】切片顯示
【df[‘20170101’:’20170103’]】指定日期切片

圖11 對數據的獲取

經過標籤選擇，如圖12所示。
【df.loc[datas[0]]】使用標籤來獲取一個交叉的區域
【df.loc[‘20170102’,[‘A’,’B’]]】對於返回對象進行維度縮減
【df.loc[‘20170101’:’20170103’,[‘A’,’B’]]】標籤切片
【df.loc[‘20170102’,[‘A’,’B’]]】對於返回對象進行維度縮減
【df.loc[dates[0],’A’]】獲取一個標量

圖12 經過標籤選擇

經過位置選擇，如圖13所示
【df.iloc[3]】經過傳遞數值進行位置選擇（選擇的是行）
【df.iloc[3:5,0:2]】經過數值進行切片選擇
【df.iloc[[1,2,4],[0,2]]】經過指定一個位置的列表選擇
【df.iloc[1:3,:]】對行進行切片
【df.iloc[:,1:3]】對列進行切片
【df.iloc[1,1]】獲取特定的值

圖13 經過位置選擇

步驟六、布爾索引

布爾索引，如圖14所示。
【df[df.A > 0]】使用一個單獨列的值來選擇數據
【df[df > 0]】經過where操做選取數據
【df2 = df.copy()】
【df2[‘E’] = [‘one’, ‘one’,’two’,’three’,’four’,’three’]】
【df2】
【df2[df2[‘E’].isin([‘two’,’four’])]】使用 isin() 方法來過濾

圖14 布爾索引

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。