[數據分析工具] Pandas 不可不知的功能(一)

  • 若是你在使用 Pandas(Python Data Analysis Library) 的話,下面介紹的對你必定會有幫助的。
首先咱們先介紹一些簡單的概念
  • DataFrame:行列數據,相似 Excel 的 sheet,或關係型數據庫的表
  • series:單列數據
  • axis:0:行,1:列
  • shape:DataFrame的行列數,(行數,列數)

1. 加載 CSV

Read_csv 方法有不少參數,有效的利用這些參數能夠減輕數據預處理的工做。誰都不肯意作數據清洗,那麼咱們就在加載數據的時候作一些簡單的數據處理
  • 直接加載
    • 無參數加載

      

    • 選擇特定列加載

      

    • 時間轉換加載

      

  • 分批加載
    有時咱們可能須要加載的 csv 太大,可能會致使內存爆掉,這時候,咱們就須要分批加載數據進行分析、處理
    

 

2. 瀏覽 DataFrame 數據

  • df.head(n):瀏覽數據的前 n 行,默認 5 行
  • df.tail(n):瀏覽數據的末尾 n 行,默認 5 行
  • df.sample(n):隨機瀏覽 n 行數據,默認 5 行
  • df.shape:tuple 類型的數據行列數,(行數,列數)
  • df.describe():計算評估數據的趨勢
  • df.info():內存和數據類型

3. 在 DataFrame 中增長列

在 DataFrame 中添加新列的操做很簡單,下面介紹幾種方式
  • 簡單方式
    直接增長新列並賦值

    df['new_column'] = 1數據庫

  • 計算方式
    df['temp_diff'] = df['atemp'] - df['temp']
  • 條件方式
    咱們僅僅根據風速,簡單判斷一下人體溫馨度,體感比較舒服的溫度是 0.3 米/秒
    

 

  • 循環方式
    咱們將 season 轉換爲具體季節的名稱
      

4. 選擇指定單元格

相似於 Excel 單元格的選擇,Pandas 提供了這樣的功能,操做很簡單,可是我本人理解起來確實沒有操做看上去那麼簡單。Pandas 提供了三個方法作相似的操做,loc,iloc,ix,ix 官方已經不建議使用,因此咱們下面介紹 loc 和 iloc
  • loc 根據標籤選取loc
     df.loc[行索引開始位置:行索引結束位置,[列名數組]]
  • iloc 根據索引選取
    df.iloc[行索引開始位置:行索引結束位置,列索開始位置:列索引結束位置]
  • 選取行數據
  • df.loc[[行索引數組]],df.iloc[[行索引數組]]

    

 

注意:
  • 索引開始位置:閉區間
  • 索引結束位置:開區間
  • loc 和 iloc 選取整列數據的時候,看上去與 df[列名數組] 的方式一致,可是其實前者返回的仍然是 DataFrame,後者返回的是 Series

    

 
個人博客即將搬運同步至騰訊雲+社區,邀請你們一同入駐:https://cloud.tencent.com/developer/support-plan
相關文章
相關標籤/搜索