描述性統計量,在不瀏覽所有數據的狀況下,得到數據集中的全距、極值以及分位數信息,同時獲得數據大體分佈以及數據離散和偏離程度等,這些信息對咱們處理海量數據集的抽樣問題,以及建模的指標選取問題都有巨大的做用,就算是咱們機器學習的模型運行後的結果數據,均可以用這些描述信息來得到咱們想要的信息,R得到描述性統計量有多種方法供咱們使用,首先和你們聊一下那些描述性統計量:算法
缺失值,爲啥先說缺失值呢,我的理解和一些接觸經驗,一方面,大數據時代嘛,全部信息都要有,每一個人信息又不一樣,那必然致使不一樣的就有確失的,信息越多,缺失值越多;另外一方面,作模型所需的指標和信息都會匯成一張寬表,這就致使了若是處理很差缺失值就會丟失不少信息,當年猴哥就作過一件很暴力的事情,直接將含有缺失值的樣本所有幹掉,結果就是95%的信息都被我幹掉了,最後固然是被客戶屌了;這裏大體說一下我對缺失值的處理,一種是經過缺失值能夠定位重要樣本,好比關鍵指標大部分樣本都是缺失的,那麼沒有缺失的最好單獨拿出來處理;另外一種是補缺,例如數值型了,缺失值通常能夠補0,固然不是全部的均可以補,有時候缺失表明的是一個不一樣的未知的種類或者沒有這個屬性;最後一種是當作一個種類或者一個樣本範圍外的值來處理。因此找缺失值是比較重要的,當年我找缺失值用過ifnull(這裏請加一個悲傷的表情),如今可沒那麼傻了。機器學習
均值、中位數、衆數,這三個一塊兒說,由於都是表明樣本空間中間的部分;均值不說了,說實話不愛用,對數據分佈結構要求有點高,否則沒啥用;中位數仍是有點用的,數據排序後最中間的那一個,數據分佈有偏斜的狀況下中位數仍是能夠的;衆數就是頻度最高的那個數,在數據分佈形態爲雙峯或者多峯的分類變量裏面比較好用。函數
分位數,包括四分位和百分位,這個數據是我比較喜歡的了,爲啥喜歡,比較靠譜,尤爲是全距(最大值與最小值的差)比較大而分位距(倆個分位數相減,例如四分位距是上四分位數減去下四分位數)比較小的時候,相似正態分佈什麼的,這個時候咱們以5%分位數去頭去尾,數據瞬間好看(這種狀況下求得的均值咱們叫截尾均值)針對聚類結果,我通常都用這種方法來觀察結果的特徵。工具
方差、標準差,這倆個是一個意思,表示了數據的波動大小,也就是數據集的變異性,均值分位數等等都只能表明個體,不肯定因素比較多,不少時候不能說明問題或者樣本特徵,可是加上標準差或者方差,就能肯定數據到底給不給力了。學習
峯度,峯度表明了數據的集中程度,直觀上看就是樣本越集中在衆數附件,峯度越高,其實就是畫出來的分佈圖頂部越尖。大數據
偏度,表示了數據分佈的偏斜程度,畫個分佈圖,比較比如較,中位數比均值小,就是靠右偏斜,中位數比均值大,就是向左偏斜,其實就是主要看均值是比大部分值小仍是大;峯度和偏度都是站在全局的角度看數據分佈的。排序
絕對中位差,即中位數的絕對誤差,算法樣本與中位數差的絕對值產生的結果後新的中位數,這個用的比較少,我也不是特瞭解在什麼狀況下用,聽說是用來估算標準差的。ast
在不額外安裝工具包的狀況下,base包提供了不少基本方法,包括:
summary:得到極值,均值,四分分位數,至關於得到了箱線圖的信息,箱線圖是我最喜歡的一幅圖,基本針對每個主 指標我都喜歡畫一個箱線圖。
sd:標準差;
quantile(x,probs):任意分位數等等;變量
固然,基本的東西確定不能讓咱們用的很爽,因此你能夠本身集成和衍生這些函數,來得到更爽的體驗,不過有一些工具包已經提供了衍生的方法來提高咱們的使用體驗,好比Hmisc、 pastecs和psych、misc。
Hmisc包,這個包裏面提供了一個函數:describe()可返回變量和觀測的數量、缺失值和惟一值的數目、平均值、分位數,以及五個最大的值和五個最小的值;方法
pastecs包中有一個名爲stat.desc()的函數,它能夠計算種類繁多的描述性統計量。經過調參能夠得到其中全部值,空值,缺失值的數量,以及最小值,最大值,值域,還有總和,中位數,平均數,平均數的標準誤,平均數置信度爲95%的置信區間,方差,標準差,變異係數,偏度和峯度,是否是感受很爽;
psych包也擁有一個名爲describe()的函數,它能夠計算非缺失值的數量、平均數、標準差、中位數、截尾均值、絕對中位差、最小值、最大值、值域、偏度、峯度等信息
misc包提供了一個summarySE()的函數,提供了彙總、平均數、標準差、平均值的標準差和平均數置信度爲95%的置信區間
介紹這麼多方法主要是在客戶那裏,有一些環境是封閉的,意思就是有啥你用啥,沒啥可挑的,你和客戶說要導個包進來,輕輕鬆鬆耽誤你一天時間,並且可能還不能導,因此就只能看看有哪些可用的,實在沒有就只能本身寫了。