pandas 學習 第11篇:DataFrame-數據處理(分組、聚合、窗口、相關、統計)

數據處理的目的是爲了數據分析,下面分享經常使用的數據分析中會用到的函數。html

一,分組和聚合

 groupby用於對數據分組,分組以後能夠直接調用聚合函數求值;agg()函數把分組和調用聚合函數集成到一個函數來實現:函數

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
DataFrame.agg(self, func, axis=0, *args, **kwargs)

二,窗口

rolling()是指按照窗口滾動求值,expanding()是指依次遞增1,計算累加;ewm指的是指數加權滾動平均:學習

DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
DataFrame.expanding(self, min_periods=1, center=False, axis=0)
DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)

詳細信息,能夠參考:pandas 學習 第4篇:序列的處理(應用、聚合、轉換、映射、分組、滾動、擴展、指數加權移動平均)spa

三,相關

計算兩對列值之間的相關性:code

DataFrame.corr(self, method='pearson', min_periods=1)

method:計算相關性的方法,有效值是 ‘pearson’, ‘kendall’, ‘spearman’ 或 callablehtm

min_periods:每對列必須具備有效結果的最小觀察數量,目前只適用於:Pearson 和 Spearman相關性。blog

四,統計函數

經常使用的統計函數:文檔

  • min、max:最小值、最大值
  • mode:衆數
  • var:方差
  • std:標準差
  • sum:累加和
  • mean:均值
  • mad:絕對值的均值
  • median:中位數
  • quantile:百分位數
  • count:計數
  • cumsum:累加求和
  • cumprod:累積乘積
  • cummin、cummax:累積最小值、累積最大值

 

參考文檔:get

pandas DataFrame數據分析

相關文章
相關標籤/搜索