數據分析: 函數
1.基本統計:describe()ip
經常使用的統計函數: 數據分析
size:計數table
sum:求和數據類型
mean:均值方法
var:方差統計
std:標準差數據
2.分組分析:groupby()tab
groupby(by=[分組列1,分組列2....])[統計列1,統計列2,...].agg({統計列別名1:統計函數;統計列別名2:統計函數,...})di
參數說明:
by:用於分組的列
中括號:用於統計的列
agg:統計別名顯示統計值的名稱
3.分佈分析:
4.交叉分析:pivot_table(values,index,columns,aggfunc,fill_value)
參數說明:
values:數據透視表中的值
index:數據透視表中的行
columns:數據透視表中的列
aggfunc:統計函數
fill_value:NA值的統一替換
5.結構分析:axis參數說明
0按列運算,1按行運算
數據框的外運算函數:add,sub,multiply,div --->加減乘除
數據框的內運算函數:sum,mean,var,sd ---->求和,均值,方差,標準差
6.相關分析:
0 - 0.3 低度相關
0.3 - 0.8 中度相關
0.8 - 1 高度相關
相關分析函數:DataFrame.corr()
Series.corr(other)
若是由數據框調用corr方法,那麼將計算每一個列兩兩之間的類似度
例如:data['身高'].corr(data['體重'])
若是由序列調用corr方法,那麼只是計算該序列與傳入的序列之間的相關度
data.loc選擇多列
例如:data.loc[:,[‘身高’,‘體重’,‘學歷’]],corr()
2019.10.22補:
df.head() 默認輸出以後的五行,也能夠在括號裏面添加你想要輸出的數據行。
df.info() 輸出顯示文件信息,查看數據類型,判斷是否有空值等