1 什麼是R語言
R語言是一個開源的數據分析環境,起初是由數位統計學家創建起來,以更好的進行統計計算和繪圖,這篇
wiki中包含了一些基本狀況的介紹。因爲R能夠經過安裝擴展包(Packages)而獲得加強,因此其功能已經遠遠不限於統計分析,若是感興趣的話能夠到
官方網站瞭解關於其功能的更多信息。
至於R語言名稱的由來則是根據兩位主要做者的首字母(Robert Gentleman and Ross Ihaka),但過於簡短的關鍵詞也形成在搜索引擎中很不容易找到相關的資料。不過這個專門的
搜索網站能夠幫到你。
2 爲何要學習R語言
可能你想說,「我已經學會了spss/sas/stata...,爲何還要去學習R呢?」以下幾方面可能會吸引到你:
- R是免費開源軟件:如今不少學術期刊都對分析軟件有版權要求,而免費的分析工具可使你在這方面不會有什麼擔憂。另外一方面,若是學術界出現一種新的數據分析方法,那麼要過很長一段時間纔會出如今商業軟件中。但開源軟件的好處就在於,很快就會有人將這種方法編寫成擴展包,或者你本身就能夠作這件工做。
- 命令行工做方式:許多人喜歡相似SPSS菜單式的操做,這對於初學者來講很方便入門,但對於數據分析來講,命令行操做會更加的靈活,更容易進行編程和自動化處理。並且命令行操做會更容易耍酷,不是嘛,通常人看到你在狂敲一推代碼後獲得一個分析結果,對你投來的目光是會不同的。
- 小巧而精悍:R語言的安裝包更小,大約不到40M,相比其它幾個你們夥它算是很是小巧精悍了。目前R語言很是受到專業人士歡迎,根據對數據挖掘大賽勝出者的調查能夠發現,他們用的工具基本上都是R語言。此外,從最近幾回R語言大會上能夠了解到,諮詢業、金融業、醫藥業都在大量的使用R語言,包括google/facebook的大公司都在用它。所以,學習R語言對你的職業發展必定是有幫助的。
3 R語言的下載和GUI界面
R語言安裝包能夠在
官方網站下載,windows版可直接點擊這個
鏈接
在ubuntu下面安裝R則更容易,在終端裏頭運行以下命令便可
sudo apt-get update
sudo apt-get install r-base
此外,學習R語言時強烈推薦安裝Rstudio作爲R的圖形界面,關於Rstudio以前的
博文有過簡單介紹,點
這裏可能轉到它的官方網站。
4 R語言的學習方法
學習R並非一件很是輕鬆的事情,初學者須要記住的就是:
- 親手鍵入代碼並理解其意義
- 在筆記裏記下一些重點或心得(我的推薦Evernote)
- 堅持練習,對手邊的數據進行應用分析
- 理解背景知識,細節很重要。
5 哪裏能夠獲得參考資料
1.官方網站
http://cran.csdb.cn/index.html (官方文獻集中地)
2.
統計之都論壇
3.
人大經濟論壇-R子論壇 (免費資料也很多)
4.
http://library.nu/ 這是網上電子書最多的地方,其中有一個R語言專門書櫃(也就是一個shelves)
5.
關於R語言的教材小結
6.筆者在verycd上發的一個
書單
7.一個國外著名的R語言羣博
http://www.r-bloggers.com/
8.展現R語言的各種繪圖
http://addictedtor.free.fr/graphiques/
本人博客裏也有一些關於R語言的資料:
xccds1977.blogspot.com (需)
若是有一些簡單的入門問題,也能夠在推特上follow me twitter:
@xccds
6 本系列博文的目的
本系列入門的目的是爲初學者提供最簡潔清晰的資料,以迅速入門。所針對的讀者人羣是那些正在大學裏學習
初級統計學的同窗。本系列計劃包括內容有:基本命令,數據操做;描述統計和繪圖;重要的R語言函數計算;統計推斷和估計;非參數統計方法;方差分析;線性迴歸和通常線性模型。
1 數據導入
對初學者來說,面對一片空白的命令行窗口,第一道真正的難關也許就是數據的導入。數據導入有不少途徑,例如從網頁抓取、公共數據源得到、文本文件導入。爲了快速入門,建議初學者採起R語言協同Excel電子表格的方法。也就是先用較爲熟悉的Excel讀取和整理你要處理的數據,而後「粘貼」到R中。
例如咱們先從
這個地址下載iris.csv演示數據,在Excel中打開,框選全部的樣本而後「複製」。在R語言中輸入以下命令:
data=read.table('clipboard',T)
這的裏read.table是R讀取外部數據的經常使用命令,T表示第一行是表頭信息,整個數據存在名爲data的變量中。另外一種更方便的導入方法是利用Rstudio的功能,在workspace菜單選擇「import dataset」也是同樣的。
2 Dataframe操做
在數據導入R語言後,會以數據框(dataframe)的形式儲存。dataframe是一種R的數據格式,能夠將它想象成相似統計表格,每一行都表明一個樣本點,而每一列則表明了樣本的不一樣屬性或特徵。初學者須要掌握的基本操做方法就是dataframe的編輯、抽取和運算。
儘管建議初學者在Excel中就把數據處理好,但有時候仍是須要在R中對數據進行編輯,下面的命令可讓你有機會修改數據並存入到新的變量newdata中:
newdata=edit(data)
另外一種狀況就是咱們可能只關注數據的一部分,例如從原數據中抽取第20到30號樣本的Sepal.Width變量數據,由於Sepal.Width變量是第2個變量,因此此時鍵入下面的命令便可:
newdata=data[20:30,2]
若是須要抽取全部數據的Sepal.Width變量,那麼下面兩個命令是等價的:
newdata=data[,2]
newdata=data$Sepal.Width
第三種狀況是須要對數據進行一些運算,例如須要將全部樣本的Sepal.Width變量都放大10倍,咱們先將原數據進行一個複製,再用$符號來提取運算對象便可:
newdata=data
newdata$Sepal.Width=newdata$Sepal.Width*10
3 描述統計
描述統計是一種從大量數據中壓縮提取信息的工具,最經常使用的就是
summary命令,運行summary(data)獲得結果以下:對於數值變量計算了五個分位點和均值,對於分類變量則計算了頻數。
也能夠單獨計算Sepal.Width變量的平均值和標準差
mean(data$Sepal.Width)
sd(data$Sepal.Width)
計算分類數據Species變量的頻數表和條形圖
table(data$Species)
barplot(table(data$Species))
對於一元數值數據,繪製直方圖和箱線圖觀察其分佈是經常使用的方法:
hist(data$Sepal.Width)
boxplot(data$Sepal.Width)
對於二元數值數據,則能夠經過散點圖來觀察規律
plot(data$Sepal.Width,Sepal.Length)
若是須要保存繪圖結果,建議使用Rstudio中的plot菜單命令,選擇save plot as image
R語言基礎入門之三:經常使用統計函數運算
在R語言中常常會用到函數,例如
上節中講到的求樣本統計量就須要均值函數(mean)和標準差函數(sd)。對於二元數值數據還用到協方差(cov),對於二元分類數據則能夠用交叉聯列表函數(table)。下文講述在初級統計學中最經常使用到的三類函數。
1、數據彙總函數
咱們仍是以R中自帶的iris數據爲例,輸入head(iris)你能夠得到數據的前6個樣本及對應的5個變量。取出最後兩列數據做爲講解的對象:Species表示花的種類,Petal.Width表示花瓣寬度
data=iris[,c(4,5)]
下一步咱們想計算不一樣種類花瓣的平均寬度,可使用tapply函數,在計算前先用attach命令將data這個數據框解包以方便直接操做其變量,而不需再用$符號。
attach(data)
tapply(X=Petal.Width,INDEX=Species,FUN=mean)
結果以下
setosa versicolor virginica
0.246 1.326 2.026
和tapply相似的還有sapply函數,在進一步講解前初學者還需搞清楚兩種數據表現方式,即stack(堆疊數據)和unstack(非堆疊數據),上面的data就是一個堆疊數據,每一行表示一個樣本。而非堆疊數據能夠根據unstack函數轉換而來
data.unstack=unstack(data)
head(data.unstack)
你應該明白這兩者之間的區別了,若是要對非堆疊數據計算不一樣種類花瓣的平均寬度,能夠利用以下函數。
sapply(data.unstack,FUN=mean)
結果是同樣的,也就是說tapply對應於stack數據,而sapply對應於unstack數據
2、機率計算函數
若是給定一種機率分佈,一般會有四類計算問題:
- 計算其機率密度density (d)
- 計算其機率分佈probability(p)
- 計算其百分位數quantile (q)
- 隨機數模擬random (r)
記住上面四類計算對應的英文首字母,再對照下表就很容易計算各類機率問題了。
舉例來說,咱們求標準正態分佈曲線下小於1的面積p(x<1),正態分佈是norm,而分佈函數是p,那麼使用pnorm(1)就得出告終果0.84;若計算扔10次硬幣實驗中有3次正面向上的機率,相似的dbinom(x=3,size=10,prob=0.5)得出0.11
3、抽樣函數
咱們想從1到10中隨機抽取5個數字,那麼這樣來作:首先產生一個序列,而後用sample函數進行無放回抽取。
x=1:10
sample(x,size=5)
有放回抽取則是
sample(x,size=5,replace=T)
sample函數在建模中常常用來對樣本數據進行隨機的劃分,一部分做爲訓練數據,另外一部分做爲檢驗數據。
R語言基礎入門之四:經常使用的統計推斷
一般一個研究項目可以得到的數據是有限的,以有限的樣本特徵來推斷整體特徵就稱爲統計推斷。推斷又可細分爲區間估計和假設檢驗,兩者雖有區別,但倒是一枚硬幣的兩面,之間有着緊密的關聯。
1 對整體均值進行區間估計
假設咱們從整體中抽得一個樣本,但願根據樣本均值判斷整體均值的置信區間,以下例所示:
x=rnorm(50,mean=10,sd=5) #隨機生成50個均值爲10,標準差爲5的隨機數爲做爲研究對象
mean(x)-qt(0.975,49)*sd(x)/sqrt(50) #根據統計學區間估計公式,獲得95%置信度下的區間下界
mean(x)+qt(0.975,49)*sd(x)/sqrt(50) #95%置信度下的區間上界
也能夠直接利用R語言內置函數
t.test
t.test(x,conf.level=0.95)
從以下結果可得95%置信區間爲(9.56,12.36)
One Sample t-test
data: x
t = 15.7301, df = 49, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
9.563346 12.364729
sample estimates:
mean of x
10.96404
2 對整體均值進行假設檢驗
仍是以上面的X數據做爲對象,來檢驗整體均值是否爲10
t.test(x,mu=10,alternative='two.sided') #這裏的原假設是整體均值(mu)爲10,使用雙側檢驗,獲得P值爲0.17,可見P值不夠小,不可以拒絕原假設。
T檢驗是極爲經常使用的檢驗方法,除了單樣本推斷以外,t.test命令還能夠實現兩樣本推斷和配對樣本推斷。若是要對整體比率或整體方差進行推斷,可使用
prop.test和
var.test。
3 正態分佈檢驗
T檢驗的前提條件是整體服從正態分佈,所以咱們有必要先檢驗正態性。並且在評價迴歸模型時,對殘差也須要檢驗正態性。檢驗正態性的函數是
shapiro.test
shapiro.test(x)
結果所下:
Shapiro-Wilk normality test
data: x
W = 0.9863, p-value = 0.8265
該檢驗的原假設是服從正態分佈,由P值爲0.82可判斷不能拒絕整體服從正態的假設
4 非參數檢驗
若是整體不服從正態分佈,那麼T檢驗就再也不適用,此時咱們能夠利用非參數方法推斷中位數。
wilcoxon.test函數可實現符號秩檢驗。
wilcox.test(x,conf.int=T) #指定conf.int讓函數返回中位數的置信區間
wilcox.test(x,mu=1) #指定mu讓函數返回中位數爲10的檢驗結果
5 獨立性檢驗(聯列表檢驗)
卡方分佈有一個重要應用就是根據樣本數據來檢驗兩個分類變量的獨立性,咱們以CO2數據爲例來講明
chisq.test函數的使用,help(CO2)能夠了解更多信息。
data(CO2) #讀入內置的數據包,其中Type和Treatmen是其中兩個分類變量。
chisq.test(table(CO2$Type,CO2$Treatment)) #使用卡方檢驗函數來檢驗這兩個因子之間是否獨立
結果顯示P值爲0.82,所以能夠認爲兩因子之間獨立。在樣本較小的狀況下,還可使用fisher精確檢驗,對應的函數是
fisher.test。
R語言基礎入門之五:簡單線性迴歸
線性迴歸多是數據分析中最爲經常使用的工具了,若是你認爲手上的數據存在着線性定量關係,不妨先畫個散點圖觀察一下,而後用線性迴歸加以分析。下面簡單介紹一下如何在R中進行線性迴歸。
1 迴歸建模
咱們利用R語言中內置的trees數據,其中包含了Volume(體積)、Girth(樹圍)、Height(樹高)這三個變量,咱們但願以體積爲因變量,樹圍爲自變量進行線性迴歸。
plot(Volume~Girth,data=trees,pch=16,col='red')
model=lm(Volume~Girth,data=trees)
abline(model,lty=2)
summary(model)
首先繪製了兩變量的散點圖,而後用lm函數創建線性迴歸模型,並將迴歸直線加在原圖上,最後用summary將模型結果進行了展現,從變量P值和F統計量可得迴歸模型是顯著的。但截距項不該該爲負數,因此也能夠用下面方法將截距強制爲0。
model2=lm(Volume~Girth-1,data=trees)
2 模型診斷
在模型創建後會利用各類方式來檢驗模型的正確性,對殘差進行分析是常見的方法,下面咱們來生成四種用於模型診斷的圖形。
par(mfrow=c(2,2))
plot(model)
par(mfrow=c(1,1))
這裏左上圖是殘差對擬合值做圖,總體呈現出一種先降低後下升的模式,顯示殘差中可能還存在未提煉出來的影響因素。右上圖殘差QQ圖,用以觀察殘差是否符合正態分佈。左下圖是標準化殘差對擬合值,用於判斷模型殘差是否等方差。右下圖是標準化殘差對槓桿值,虛線表示的cooks距離等高線。咱們發現31號樣本有較大的影響。
3 變量變換
由於31號樣本有着高影響力,爲了下降其影響,一種方法就是將變量進行開方變換來改善迴歸結果,從殘差標準誤到殘差圖,各項觀察都說明變換是有效的。
plot(sqrt(Volume)~Girth,data=trees,pch=16,col='red')
model2=lm(sqrt(Volume)~Girth,data=trees)
abline(model2,lty=2)
summary(model2)
4 模型預測
下面根據上述模型計算預測值以及置信區間,predict函數能夠得到模型的預測值,加入參數能夠獲得預測區間
plot(sqrt(Volume)~Girth,data=trees,pch=16,col='red')
model2=lm(sqrt(Volume)~Girth,data=trees)
data.pre=data.frame(predict(model2,interval='prediction'))
lines(data.pre$lwr~trees$Girth,col='blue',lty=2)
lines(data.pre$upr~trees$Girth,col='blue',lty=2)
咱們還能夠將樹圍和樹高都加入到模型中去,進行多元迴歸。若是要考慮的變量不少,能夠用step函數進行變量篩選,它是以AIC做爲評價指標來判斷一個變量是否應該加入模型,建議使用這種自動判斷函數時要謹慎。對於嵌套模型,還可使用anova創建方差分析表來比較模型。對於變量變換的形式,則可使用MASS擴展包中的boxcox函數來進行COX變換。
R語言基礎入門之六(完):Logistic迴歸
讓咱們用logistic迴歸來結束本系列的內容吧,本文用例來自於
John Maindonald所著的
《Data Analysis and Graphics Using R》一書,其中所用的數據集是anesthetic,數據集來自於一組醫學數據,其中變量conc表示麻醉劑的用量,move則表示手術病人是否有所移動,而咱們用nomove作爲因變量,由於研究的重點在於conc的增長是否會使nomove的機率增長。
首先載入數據集並讀取部分文件,爲了觀察兩個變量之間關係,咱們能夠利cdplot函數來繪製條件密度圖.
library(DAAG)
head(anesthetic)
cdplot(factor(nomove)~conc,data=anesthetic,main='條件密度圖',ylab='病人移動',xlab='麻醉劑量')
從圖中可見,隨着麻醉劑量加大,手術病人傾向於靜止。下面利用logistic迴歸進行建模,獲得intercept和conc的係數爲-6.47和5.57,因而可知麻醉劑量超過1.16(6.47/5.57)時,病人靜止機率超過50%。
anes1=glm(nomove~conc,family=binomial(link='logit'),data=anesthetic)
summary(anes1)
上面的方法是使用原始的0-1數據進行建模,即每一行數據均表示一個個體,另外一種是使用匯總數據進行建模,先將原始數據按下面步驟進行彙總
anestot=aggregate(anesthetic[,c('move','nomove')],by=list(conc=anesthetic$conc),FUN=sum)
anestot$conc=as.numeric(as.character(anestot$conc))
anestot$total=apply(anestot[,c('move','nomove')],1,sum)
anestot$prop=anestot$nomove/anestot$total
獲得彙總數據anestot以下所示
conc move nomove total prop
1 0.8 6 1 7 0.1428571
2 1.0 4 1 5 0.2000000
3 1.2 2 4 6 0.6666667
4 1.4 2 4 6 0.6666667
5 1.6 0 4 4 1.0000000
6 2.5 0 2 2 1.0000000
對於彙總數據,有兩種方法能夠獲得一樣的結果,一種是將兩種結果的向量合併作爲因變量,如anes2模型。另外一種是將比率作爲因變量,總量作爲權重進行建模,如anes3模型。這兩種建模結果是同樣的。
anes2=glm(cbind(nomove,move)~conc,family=binomial(link='logit'),data=anestot)
anes3=glm(prop~conc,family=binomial(link='logit'),weights=total,data=anestot)
根據logistic模型,咱們可使用predict函數來預測結果,下面根據上述模型來繪圖
x=seq(from=0,to=3,length.out=30) y=predict(anes1,data.frame(conc=x),type='response') plot(prop~conc,pch=16,col='red',data=anestot,xlim=c(0.5,3),main='Logistic迴歸曲線圖',ylab='病人靜止機率',xlab='麻醉劑量') lines(y~x,lty=2,col='blue')