三、pandas

原文出處: pandas.pydata.org   譯文出處:石卓林   html

這是關於pandas的簡短介紹,主要面向新用戶。能夠參閱Cookbook瞭解更復雜的使用方法。python

連接:http://python.jobbole.com/84416/git

習慣上,咱們作如下導入github

 

建立對象

使用傳遞的值列表序列建立序列, 讓pandas建立默認整數索引正則表達式

使用傳遞的numpy數組建立數據幀,並使用日期索引和標記列.數據庫

使用傳遞的可轉換序列的字典對象建立數據幀.api

全部明確類型數組

若是你這個正在使用IPython,標籤補全列名(以及公共屬性)將自動啓用。這裏是將要完成的屬性的子集:數據結構

如你所見, 列 ABC, 和 D 也是自動完成標籤. E 也是可用的; 爲了簡便起見,後面的屬性顯示被截斷.app

查看數據

參閱基礎部分

查看幀頂部和底部行

顯示索引,列,和底層numpy數據

描述顯示數據快速統計摘要

轉置數據

按軸排序

按值排序

 

選擇器

註釋: 標準Python / Numpy表達式能夠完成這些互動工做, 但在生產代碼中, 咱們推薦使用優化的pandas數據訪問方法, .at, .iat, .loc, .iloc 和 .ix.

參閱索引文檔 索引和選擇數據 and 多索引/高級索引

讀取

選擇單列, 這會產生一個序列, 等價df.A

使用[]選擇行片段

 

使用標籤選擇

更多信息請參閱按標籤選擇

使用標籤獲取橫截面

使用標籤選擇多軸

顯示標籤切片, 包含兩個端點

下降返回對象維度

獲取標量值

快速訪問並獲取標量數據 (等價上面的方法)

 

按位置選擇

更多信息請參閱按位置參閱

傳遞整數選擇位置

使用整數片段,效果相似numpy/python

使用整數偏移定位列表,效果相似 numpy/python 樣式

顯式行切片

顯式列切片

顯式獲取一個值

快速訪問一個標量(等同上個方法)

 

布爾索引

使用單個列的值選擇數據.

where 操做.

使用 isin() 篩選:

 

賦值

賦值一個新列,經過索引自動對齊數據

按標籤賦值

按位置賦值

經過numpy數組分配賦值

以前的操做結果

where 操做賦值.

 

丟失的數據

pandas主要使用np.nan替換丟失的數據. 默認狀況下它並不包含在計算中. 請參閱 Missing Data section

重建索引容許更改/添加/刪除指定軸索引,並返回數據副本.

刪除任何有丟失數據的行.

填充丟失數據

獲取值是否nan的布爾標記

 

運算

參閱二元運算基礎

統計

計算時通常不包括丟失的數據

執行描述性統計

在其餘軸作相同的運算

用於運算的對象有不一樣的維度並須要對齊.除此以外,pandas會自動沿着指定維度計算.

 

Apply

在數據上使用函數

 

直方圖

請參閱 直方圖和離散化

 

字符串方法

序列能夠使用一些字符串處理方法很輕易操做數據組中的每一個元素,好比如下代碼片段。 注意字符匹配方法默認狀況下一般使用正則表達式(而且大多數時候都如此). 更多信息請參閱字符串向量方法.

 

合併

鏈接

pandas提供各類工具以簡便合併序列,數據楨,和組合對象, 在鏈接/合併類型操做中使用多種類型索引和相關數學函數.

請參閱合併部分

把pandas對象鏈接到一塊兒

 

鏈接

SQL樣式合併. 請參閱 數據庫style聯接

 

添加

添加行到數據增. 參閱 添加

 

分組

對於「group by」指的是如下一個或多個處理

  • 將數據按某些標準分割爲不一樣的組
  • 在每一個獨立組上應用函數
  • 組合結果爲一個數據結構

請參閱 分組部分

分組而後應用函數統計總和存放到結果組

按多列分組爲層次索引,而後應用函數

 

重塑

請參閱章節 分層索引 和 重塑.

堆疊

堆疊 函數 「壓縮」 數據楨的列一個級別.

被「堆疊」數據楨或序列(有多個索引做爲索引), 其堆疊的反向操做是未堆棧, 上面的數據默認反堆疊到上一級別:

 

數據透視表

查看數據透視表.

咱們能夠今後數據很是容易的產生數據透視表:

 

時間序列

pandas有易用,強大且高效的函數用於高頻數據重採樣轉換操做(例如,轉換秒數據到5分鐘數據), 這是很廣泛的狀況,但並不侷限於金融應用, 請參閱時間序列章節

時區表示

轉換到其它時區

轉換不一樣的時間跨度

轉換時段而且使用一些運算函數, 下例中, 咱們轉換年報11月到季度結束每日上午9點數據

 

分類

自版本0.15起, pandas能夠在數據楨中包含分類. 完整的文檔, 請查看分類介紹 and the API文檔.

轉換原始類別爲分類數據類型.

重命令分類爲更有意義的名稱 (分配到Series.cat.categories對應位置!)

重排順分類,同時添加缺乏的分類(序列 .cat方法下返回新默認序列)

排列分類中的順序,不是按詞彙排列.

類別列分組,而且也顯示空類別.

 

繪圖

繪圖文檔.

在數據楨中,能夠很方便的繪製帶標籤列:

獲取數據輸入/輸出

CSV

寫入csv文件

讀取csv文件

 

HDF5

讀寫HDF存儲

寫入HDF5存儲

讀取HDF5存儲

 

Excel

讀寫MS Excel

寫入excel文件

讀取excel文件

 

陷阱

若是嘗試這樣操做可能會看到像這樣的異常:

查看對照獲取解釋和怎麼作的幫助

也能夠查看陷阱.

相關文章
相關標籤/搜索