【原】十分鐘搞定pandas

時間 2019-11-06

標籤十分 10分搞定 pandas 简体版

原文原文鏈接

本文是對pandas官方網站上《10 Minutes to pandas》的一個簡單的翻譯，原文在這裏。這篇文章是對pandas的一個簡單的介紹，詳細的介紹請參考：Cookbook 。習慣上，咱們會按下面格式引入所須要的包： html

1、建立對象

能夠經過 Data Structure Intro Setion 來查看有關該節內容的詳細信息。 python

1、能夠經過傳遞一個list對象來建立一個Series，pandas會默認建立整型索引： api

2、經過傳遞一個numpy array，時間索引以及列標籤來建立一個DataFrame：數組

3、經過傳遞一個可以被轉換成相似序列結構的字典對象來建立一個DataFrame：數據結構

4、查看不一樣列的數據類型： app

5、若是你使用的是IPython，使用Tab自動補全功能會自動識別全部的屬性以及自定義的列，下圖中是全部可以被自動識別的屬性的一個子集：函數

2、查看數據

詳情請參閱：Basics Section 優化

一、查看frame中頭部和尾部的行：網站

二、顯示索引、列和底層的numpy數據： spa

三、 describe()函數對於數據的快速統計彙總：

四、對數據的轉置：

五、按軸進行排序

六、按值進行排序

3、選擇

雖然標準的Python/Numpy的選擇和設置表達式都可以直接派上用場，可是做爲工程使用的代碼，咱們推薦使用通過優化的pandas數據訪問方式： .at, .iat, .loc, .iloc 和 .ix詳情請參閱Indexing and Selecing Data 和 MultiIndex / Advanced Indexing。

l 獲取

一、選擇一個單獨的列，這將會返回一個Series，等同於df.A：

二、經過[]進行選擇，這將會對行進行切片

l 經過標籤選擇

一、使用標籤來獲取一個交叉的區域

二、經過標籤來在多個軸上進行選擇

三、標籤切片

四、對於返回的對象進行維度縮減

五、獲取一個標量

六、快速訪問一個標量（與上一個方法等價）

l 經過位置選擇

一、經過傳遞數值進行位置選擇（選擇的是行）

二、經過數值進行切片，與numpy/python中的狀況相似

三、經過指定一個位置的列表，與numpy/python中的狀況相似

四、對行進行切片

五、對列進行切片

六、獲取特定的值

l 布爾索引

一、使用一個單獨列的值來選擇數據：

二、使用where操做來選擇數據：

三、使用isin()方法來過濾：

l 設置

一、設置一個新的列：

二、經過標籤設置新的值：

三、經過位置設置新的值：

四、經過一個numpy數組設置一組新值：

上述操做結果以下：

五、經過where操做來設置新的值：

4、缺失值處理

在pandas中，使用np.nan來代替缺失值，這些值將默認不會包含在計算中，詳情請參閱：Missing Data Section。

一、 reindex()方法能夠對指定軸上的索引進行改變/增長/刪除操做，這將返回原始數據的一個拷貝：、

二、去掉包含缺失值的行：

三、對缺失值進行填充：

四、對數據進行布爾填充：

5、相關操做

詳情請參與 Basic Section On Binary Ops

l 統計（相關操做一般狀況下不包括缺失值）

一、執行描述性統計：

二、在其餘軸上進行相同的操做：

三、對於擁有不一樣維度，須要對齊的對象進行操做。Pandas會自動的沿着指定的維度進行廣播：

l Apply

一、對數據應用函數：

l 直方圖

具體請參照：Histogramming and Discretization

l 字符串方法

Series對象在其str屬性中配備了一組字符串處理方法，能夠很容易的應用到數組中的每一個元素，以下段代碼所示。更多詳情請參考：Vectorized String Methods.

6、合併

Pandas提供了大量的方法可以輕鬆的對Series，DataFrame和Panel對象進行各類符合各類邏輯關係的合併操做。具體請參閱：Merging section

l Concat

l Join 相似於SQL類型的合併，具體請參閱：Database style joining

l Append 將一行鏈接到一個DataFrame上，具體請參閱Appending：

7、分組

對於」group by」操做，咱們一般是指如下一個或多個操做步驟：

l （Splitting）按照一些規則將數據分爲不一樣的組；

l （Applying）對於每組數據分別執行一個函數；

l （Combining）將結果組合到一個數據結構中；

詳情請參閱：Grouping section

一、分組並對每一個分組執行sum函數：

二、經過多個列進行分組造成一個層次索引，而後執行函數：

8、 Reshaping

詳情請參閱 Hierarchical Indexing 和 Reshaping。

l Stack

l 數據透視表，詳情請參閱：Pivot Tables.

能夠從這個數據中輕鬆的生成數據透視表：

9、時間序列

Pandas在對頻率轉換進行從新採樣時擁有簡單、強大且高效的功能（如將按秒採樣的數據轉換爲按5分鐘爲單位進行採樣的數據）。這種操做在金融領域很是常見。具體參考：Time Series section。

一、時區表示：

二、時區轉換：

三、時間跨度轉換：

四、時期和時間戳之間的轉換使得可使用一些方便的算術函數。

10、 Categorical

從0.15版本開始，pandas能夠在DataFrame中支持Categorical類型的數據，詳細介紹參看：categorical introduction和API documentation。

一、將原始的grade轉換爲Categorical數據類型：

二、將Categorical類型數據重命名爲更有意義的名稱：

三、對類別進行從新排序，增長缺失的類別：

四、排序是按照Categorical的順序進行的而不是按照字典順序進行：

五、對Categorical列進行排序時存在空的類別：

11、畫圖

具體文檔參看：Plotting docs

對於DataFrame來講，plot是一種將全部列及其標籤進行繪製的簡便方法：

12、導入和保存數據

l CSV，參考：Writing to a csv file

一、寫入csv文件：

二、從csv文件中讀取：

l HDF5，參考：HDFStores

一、寫入HDF5存儲：

二、從HDF5存儲中讀取：

l Excel，參考：MS Excel

一、寫入excel文件：

二、從excel文件中讀取：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

【原】十分鐘搞定pandas

1、 建立對象

2、 查看數據

3、 選擇

4、 缺失值處理

5、 相關操做

6、 合併

7、 分組