(1)pandas 基礎教程

步驟一、環境準備

右擊桌面上選擇【Open in Terminal】 打開終端。
在彈出的終端中輸入【ipython】進入Python的解釋器中,如圖1所示。python

 

圖1 ipython解釋器

步驟二、導入所須要的包

導入實驗經常使用的python包。如圖2所示。
【import pandas as pd】pandas用來作數據處理。
【import numpy as np】numpy用來作高維度矩陣運算.
【import matplotlib.pyplot as plt】matplotlib用來作數據可視化。dom

 

圖2 導入所須要的包

步驟三、建立對象

經過傳遞一個list對象來建立一個Series,pandas會默認建立整型索引,如圖3所示。
【s = pd.Series([1,3,5,np.nan,6,8]】將一個list傳入到Series對象
【s】查看s的值函數

 

圖3 建立Series對象


經過傳遞一個 numpy array,時間索引以及列標籤來建立一個 DataFrame,如圖4所示。
【datas = pd.date_range(‘20170101’, periods=6)】生成20170101-20170106 六天的日期
【datas】查看生成的數據
【df = pd.DataFrame(np.random.randn(6,4), index=datas, columns=list(‘ABCD’))】以時間爲索引以及ABCD爲列標籤建立一個DataFrame對象
【df】查看生成的DataFrame對象spa

 

圖4 建立DataFrame對象


經過傳遞一個可以被轉換成相似序列結構的字典對象來建立一個DataFrame。如圖5所示:

df2 = pd.DataFrame({ ‘A’ : 1.,
‘B’ : pd.Timestamp(‘20170101’),
‘C’ : pd.Series(1,index=list(range(4)),dtype=’float32’),
‘D’ : np.array([3] * 4,dtype=’int32’),
‘E’ : pd.Categorical([「test」,」train」,」test」,」train」]),
‘F’ : ‘foo’ })
】生成一個字典對象,並傳遞生成一個DataFrame
【df2】查看生成的DataFrame
【df2.dtype】查看不一樣列的數據類型對象

 

圖5 傳遞字典生成DataFrame對象

步驟四、查看數據

查看 DataFrame 中頭部和尾部的行,如圖6所示。
【df.head()】查看dataFrame的前五行
【df.tail(3)】查看dataFrame的後三行排序

 

圖6 查看數據1


查看df的索引,列名稱和底層的numpy數據,如圖7所示。
【df.index】查看dataFrame的索引。
【df.columns】查看dataFrame的列名稱
【df.values】查看dataFrame底層的數據索引

 

圖7 查看數據2


describe()函數對於數據的快速統計彙總,如圖8所示
【df.describe()】對數據進行快速彙總three

 

圖8 對數據彙總


對數據的轉置,如圖9所示。
【df.T】ip

 

圖9 對數據的轉置


對數據的排序,如圖10所示。
【df.sort_index(axis=1, ascending=False)】按軸進行排序
【df.sort_values(by=’B’)】按值進行排序pandas

 

圖10 對數據的排序

步驟五、數據的選擇

對數據的獲取,如圖11所示。
【df[‘A’]】選擇一個單獨的列,返回一個Series
【df[0:3]】切片顯示
【df[‘20170101’:’20170103’]】指定日期切片

 

圖11 對數據的獲取


經過標籤選擇,如圖12所示。
【df.loc[datas[0]]】使用標籤來獲取一個交叉的區域
【df.loc[‘20170102’,[‘A’,’B’]]】對於返回對象進行維度縮減
【df.loc[‘20170101’:’20170103’,[‘A’,’B’]]】標籤切片
【df.loc[‘20170102’,[‘A’,’B’]]】對於返回對象進行維度縮減
【df.loc[dates[0],’A’]】獲取一個標量

 

圖12 經過標籤選擇


經過位置選擇,如圖13所示
【df.iloc[3]】經過傳遞數值進行位置選擇(選擇的是行)
【df.iloc[3:5,0:2]】經過數值進行切片選擇
【df.iloc[[1,2,4],[0,2]]】經過指定一個位置的列表選擇
【df.iloc[1:3,:]】對行進行切片
【df.iloc[:,1:3]】對列進行切片
【df.iloc[1,1]】獲取特定的值

 

圖13 經過位置選擇

步驟六、布爾索引

布爾索引,如圖14所示。
【df[df.A > 0]】使用一個單獨列的值來選擇數據
【df[df > 0]】經過where操做選取數據
【df2 = df.copy()】
【df2[‘E’] = [‘one’, ‘one’,’two’,’three’,’four’,’three’]】
【df2】
【df2[df2[‘E’].isin([‘two’,’four’])]】使用 isin() 方法來過濾

 

圖14 布爾索引
相關文章
相關標籤/搜索