pandas網頁操做基礎

ipython notebook

命令行輸入ipython notebookpython

  此時,瀏覽器會自動運行並打開ipython網頁數組

基本操做

如上圖所示,新建一個項目瀏覽器

導入相關模塊,創建一個數據集app

製造數據缺失項,並給新插入部分部分賦值函數

這樣就構造了一個二維的DataFrame數組,其中包含了一些空數據命令行

處理空數據通常有兩種blog

  dropna(),將含有空值行去掉

  fillna(values=5)將空值替換成默認值

pd.isnull(df1) 能夠判斷元素是不是空數據,加any().any()能夠獲得是否有空數據的布爾值

按列求平均值計算:(空值不參與計算)

按行求平均值計算:(空值不參與計算)

按列求累加值:(空值不參與計算)

當兩個維數不一樣的數組相減時,被減的數組會複製當前列補全被減數組的維數,空值不參與運算

按行累加

 

 每一列最大值減最小值

apply函數輸入的是個序列

value_counts()查看元素出現的次數與.mode()查看出現次數最多的元素

先建立一個隨機序列排序

調用value_counts()索引

調用.mode()查看出現次數最多的元素ip

數據合併

先建立一個10*4的數組

(1)調用concat()函數合併數組(concat接受的是一個數組,數組裏面是要合併的數組)

查看合併後的數組是否與原數組相等

(2)經過merge合併,相似於表join關聯

先建立兩個數組

 

 調用merge,等價於select * from left inner join right on left.key = right.key;

(3)插入方式合併數組

先建立一個數組

調用append,若是插入列數不一樣,將爲缺失值

分類統計

先建立數組

單個對'A‘’分組,groupby('A')

多分組,groupby([])

 數據整形

   歸納:行索引與列索引作位置互換 

  先建立一個元組列表

  給雙層索引從新命名

  建立一個8*2的數組

  調用stack()函數將列索引變行索引,

  調用unstack()將最後一層行索引轉換爲列索引,每調用一次,取一層行索引轉換爲列索引

數據透視

  概念:根據需求只看數組中的一部分

  先建立一個數組

  調用pivot_table(),參數爲values、index、columns,分別表示要查看的列數據與行索引與列索引範圍

  好比查看D這一列,以A、B爲聯合行索引,以C爲列索引的數據,若是對應數據不存在則爲NaN,若是對應位置有多個值,則爲平均值

時間序列

  先建立時間序列

  根據時間序列建立對應的隨機數數組

  數據量過大時能夠定義採樣方法,調用resample()函數

  如沒兩分鐘採樣求平均值

  還有一種建立時間序列的方式:以季度建立

  調用to_timestamp()能夠轉換爲時間日期的格式

  pandas對於時間的計算至關簡單,如

類別數據

  先建立一個數組

  添加類別數據

  查看類別索引,並給類別索引從新賦值,若是對grade排序,並非以grade排序,而是以raw_grade來排序

數據可視化

  先建立一個數組

  調用cumsum函數對數據求和

  調用plot(),將數據可視化

數據讀寫

  先建立一個數組

 

  調用to_csv('file.csv')將數據寫入磁盤 

  調用pd.read_csv('file.csv')讀出磁盤文件數據,加參數指定索引列,不然以前的索引列會被當成數據列產生異常

相關文章
相關標籤/搜索