Mr.林:小白,咱們已經學會了數據導入,那麼今天就來學習如何進行基本統計分析。
小白:好啊!
Mr.林:基本統計分析,又叫描述性統計分析,它是指運用製表、分類、圖形以及計算歸納性數據來描述數據特徵的各項活動,以發現其內在規律的統計分析方法。
描述性統計分析主要包括數據的集中趨勢分析、數據的離散程度分析、數據的頻數分佈分析等,經常使用的統計指標有:計數、求和、平均值、方差、標準差等。
在Pandas 中,使用describe 函數進行描述性統計分析。
咱們繼續使用導入使用的案例數據進行學習,輸入如下代碼:python
1import pandas 2data = pandas.read_csv( 3'D:/D/data.csv', 4 engine='python', 5 encoding='utf8' 6)
Mr.林:執行後,在變量瀏覽窗口中就能夠看到剛導入的data變量了,雙擊打開data變量,就能夠獲得下面這張表。
而後輸入如下代碼ide
1# 對數據框進行描述統計分析 2data.describe()
執行後,直接在輸出窗口中能夠查看結果。函數
1 id age 2count 59101.000000 59101.000000 3mean 149829.546471 27.228862 4std 28772.846683 5.389559 5min 100000.000000 3.000000 625% 124850.000000 24.000000 750% 150032.000000 26.000000 875% 174773.000000 29.000000 9max 199501.000000 87.000000
能夠看到describe 函數僅對id、age這兩列數據進行描述統計分析,小白,你知道爲何嗎?
小白:由於只有這兩列纔是數值型數據。
Mr.林:是的,咱們繼續看,給出的結果有count(計數)、mean(平均值)、std(標準差)、min(最小值)、25%(第一四分位數)、50%(中位數)、75%(第三四分位數)、max(最大值),這樣咱們就能夠對數據有個基本的瞭解。
小白:id這列數據其實統計mean(平均值)、std(標準差)、25%(第一四分位數)、50%(中位數)、75%(第三四分位數)這幾個指標好像意義不大。
Mr.林:哈哈,不錯呦!確實沒什麼意義。若是隻要對age列進行統計,還能夠這樣寫代碼學習
1data.age.describe()
執行後,直接在輸出窗口中能夠查看結果。code
1count 59101.000000 2mean 27.228862 3std 5.389559 4min 3.000000 525% 24.000000 650% 26.000000 775% 29.000000 8max 87.000000
若是僅僅須要統計某個指標,能夠這樣寫blog
1# 統計用戶數 2data.id.count()
統計結果:59101數據分析
1# 平均年齡 2data.age.mean()
統計結果:27.228862pandas
1# 年齡最大值 2data.age.max()
統計結果:87it
1# 年齡最小值 2data.age.min()
統計結果:3class
1# 年齡方差 2data.age.var()
統計結果:29.04735
1# 年齡標準差 2data.age.std()
統計結果:5.389559
小白:好的。
Mr.林:今天就到這,下次咱們繼續學習其餘操做,小白你回去要多多練習,多敲代碼。
長按識別下方二維碼,並關注公衆號
回覆「DR」獲取案例數據