數據處理的目的是爲了數據分析,下面分享經常使用的數據分析中會用到的函數。html
groupby用於對數據分組,分組以後能夠直接調用聚合函數求值;agg()函數把分組和調用聚合函數集成到一個函數來實現:函數
DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs) DataFrame.agg(self, func, axis=0, *args, **kwargs)
rolling()是指按照窗口滾動求值,expanding()是指依次遞增1,計算累加;ewm指的是指數加權滾動平均:學習
DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None) DataFrame.expanding(self, min_periods=1, center=False, axis=0) DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)
詳細信息,能夠參考:pandas 學習 第4篇:序列的處理(應用、聚合、轉換、映射、分組、滾動、擴展、指數加權移動平均)spa
計算兩對列值之間的相關性:code
DataFrame.corr(self, method='pearson', min_periods=1)
method:計算相關性的方法,有效值是 ‘pearson’, ‘kendall’, ‘spearman’ 或 callablehtm
min_periods:每對列必須具備有效結果的最小觀察數量,目前只適用於:Pearson 和 Spearman相關性。blog
經常使用的統計函數:文檔
參考文檔:get
pandas DataFrame數據分析