1、pandas 是什麼
pandas 是基於 NumPy 的一個 Python 數據分析包,主要目的是爲了
數據分析。它提供了大量高級的
數據結構和
對數據處理的方法。
pandas 有兩個主要的數據結構:
Series 和
DataFrame。
2、Series
Series 是一個
一維數組對象 ,相似於 NumPy 的一維 array。它除了包含一組數據還包含一組索引,因此能夠把它理解爲一組帶索引的數組。
將 Python 數組轉換成 Series 對象:
將 Python 字典轉換成 Series 對象:
當沒有顯示指定索引的時候,Series 自動以 0 開始,步長爲 1 爲數據建立索引。
你也能夠經過 index 參數顯示指定索引:
對於 Series 對象裏的單個數據來講,和普通數組同樣,根據索引獲取對應的數據或從新賦值;
不過你還能夠傳入一個索引的數組來獲取數據或未數據從新賦值:
想要單獨獲取 Series 對象的索引或者數組內容的時候,可使用
index 和
values 屬性,例如:
對 Series 對象的運算(索引不變):
3、DataFrame
DataFrame 是一個
表格型的數據結構。它提供
有序的列和
不一樣類型的列值。
例如將一個由 NumPy 數組組成的字典轉換成 DataFrame 對象:
DataFrame 默認根據列名首字母順序進行排序,想要指定列的順序?傳入一個列名的字典便可:
若是傳入的列名找不到,它不會報錯,而是產生一列 NA 值:
DataFrame 不只能夠以字典索引的方式獲取數據,還能夠以屬性的方法獲取,例如:
修改列的值:
刪除某一列: