R語言 ggplot2包

分析數據要作的第一件事情，就是觀察它。對於每一個變量，哪些值是最多見的？值域是大是小？是否有異常觀測？javascript

ggplot2的核心理念是將繪圖與數據分離，數據相關的繪圖與數據無關的繪圖分離
ggplot2是按圖層做圖
ggplot2保有命令式做圖的調整函數，使其更具靈活性
ggplot2將常見的統計變換融入到了繪圖中。
ggplot的繪圖有如下幾個特色：第一，有明確的起始（以ggplot函數開始）與終止（一句語句一幅圖）；其二，圖層之間的疊加是靠「+」號實現的，越後面其圖層越高。
ggplot圖的元素能夠主要能夠歸納以下：最大的是plot（指整張圖，包括background和title），其次是axis（包括stick，text，title和stick）、legend（包括backgroud、text、title）、facet這是第二層次，其中facet能夠分爲外部strip部分（包括backgroud和text）和內部panel部分（包括backgroud、boder和網格線grid，其中粗的叫grid.major，細的叫grid.minor）。
ggplot2裏的全部函數能夠分爲如下幾類：
用於運算（咱們在此不講，如fortify_，mean_等）
初始化、展現繪圖等命令（ggplot，plot，print等）
按變量組圖（facet_等）
真正的繪圖命令（stat_，geom_，annotate），這三類就是實現一個函數一個圖層的核心函數。
微調圖型：嚴格意義上說，這一類函數不是再實現圖層，而是在作局部調整。
aes : 一樣適用於修改geom_XXX() aes參數控制了對哪些變量進行圖形映射，以及映射方式
圖形屬性（aes）橫縱座標、點的大小、顏色，填充色等css

ggplot(data = , aes(x = , y = )) +
geom_XXX(...) + ... + stat_XXX(...) + ... +
annotate(...) + ... + labs(...) +
scale_XXX(...) + coord_XXX(...) + guides(...) + theme(...) +
facet_XXX(...)
#完整ggplot2繪圖示意：
library(ggplot2)
attach(iris)
p <- ggplot(data=iris,aes(x = Sepal.Length,y = Sepal.Width))
p + geom_point(aes(colour = Species)) + stat_smooth() +
labs(title = "Iris of Sepal.length \n According to the Sepal.Width") +
theme_classic() + theme_bw() +annotate("text",x=7,y=4,parse = T,label = "x[1]==x[2]",size=6, family="serif",fontface="italic", colour="darkred")java

geom :表示幾何對象，它是ggplot中重要的圖層控制對象，由於它負責圖形渲染的類型。
幾何對象（geom_）上面指定的圖形屬性須要呈如今必定的幾何對象上才能被咱們看到，這些承載圖形屬性的對象多是點，多是線，多是barpython

stat :統計變換好比求均值，求方差等，當咱們須要展現出某個變量的某種統計特徵的時候，須要用到統計變換nginx

annotate：添加註釋 #因爲設置的文本會覆蓋原來的圖中對應的位置，能夠改變文本的透明度或者顏色例： annotate(geom='text')會向圖形添加一個單獨的文本對象 annotate("text",x=23,y=200,parse=T,label = "x[1]==x[2]")git

labs : labs(x = "這是 X 軸", y = "這是 Y 軸", title = "這是標題") ## 修改文字github

scale_: 標度是一種函數，它控制了數學空間到圖形元素空間的映射。一組連續數據能夠映射到X軸座標，也能夠映射到一組連續的漸變色彩。一組分類數據能夠映射成爲不一樣的形狀，也能夠映射成爲不一樣的大小，這就是與aes內的各類美學（shape、color、fill、alpha）調整有關的函數。express

coord_：調整座標，控制了圖形的座標軸並影響全部圖形元素. 調整座標 coord_flip()來翻轉座標軸。使用xlim()和ylim()來設置連續型座標軸的最小值和最大值 coord_cartesian(xlim=c(0,100),ylim=c(0,100))

theme：調整不與數據有關的圖的元素的函數。theme函數採用了四個簡單地函數來調整全部的主題特徵：element_text調整字體，element_line調整主題內的全部線，element_rect調整全部的塊，element_blank清空。theme(panel.grid =element_blank()) ## 刪去網格線

facet :控制分組繪圖的方法和排列形式
# 不指定數據集時，data = NULL
一個圖形對象就是一個包含數據，映射，圖層，標度，座標和分面的列表，外加組件options
ggplot(數據, 映射) geom_xxx(映射, 數據) stat_xxx(映射, 數據)

# 經過「+」實現不一樣圖層的相應累加，且越日後的圖層表如今上方
點（point, text）：每每只有x、y指定位置，有shape但沒有fill
線(line,vline,abline,hline,stat_function等)：通常是基於函數來處理位置
射(segment)：特徵是指定位置有xend和yend，表示射線方向
面(tile, rect)：這類通常有xmax,xmin,ymax,ymin指定位置
棒(boxplot,bin,bar,histogram)：每每是二維或一維變量，具備width屬性
帶(ribbon,smooth):透明是特徵是透明的fill
補：包括rug圖，偏差棒(errorbar,errorbarh)
而後，就是按照你的須要一步步加圖層了（使用「+」）。

基本語法：

幾何對象（geom）：用來展現數據的幾何對象，如geom_point,geom_bar,geom_abline；

圖形屬性（aes）：圖形屬性決定了圖形的外觀，如字體大小、標籤位置及刻度線；

座標（coordinate）：數據如何被映射到圖中。如coord_cartesian:笛卡爾座標、coord_polar:極座標、coord_map:地理投影；

統計變換（stat）：對數據進行彙總，如箱線圖：stat_boxplot、線圖：stat_abline、直方圖：stat_bin

分面（facet）：用來描述數據如何被拆分爲子集，以及對不一樣子集是如何繪製的。

幾何對象：

爲了指定圖形類型，必須加入圖層，可採用layer()函數。可使用「point」等短名稱來指定幾何對象。layer函數容許將幾何對象做爲名稱和值的配對，這樣就不須要指出函數全名，而只須要geom_後面的部分。幾何對象以下：

統計變換

標度函數

座標系

分面

位置

Chap1. R 基礎

Chap2. 快速探索數據（略）

## 概述 qplot()函數的語法與基礎繪圖系統相似，簡短易輸入，一般用於探索性數據分析。qplot(x,y,data,geom=c(xx,xx))

條形圖

直方圖

箱線圖

繪製函數圖像

Chap3. 條形圖

重要細節：條形圖的高度表示的是數據集中變量的頻數，仍是表示變量取值自己

## 概述條形圖一般用來展現不一樣的分類下（x軸）某個數值型變量的取值（y軸），其條形高度既能夠表示數據集中變量的頻數，也能夠表示變量取值自己。

參數

條形圖

對於條形圖的y軸就是數據框中本來的數值時，必須將geom_bar()函數中stat(統計轉換)參數設置爲’identity’，即對原始數據集不做任何統計變換，而該參數的默認值爲’count’，即觀測數量。

數據集自己是明細數據，而對於統計某個離散變量出現的頻次時，geom_bar()函數中stat(統計轉換)參數只能設置爲默認，即’count’。

固然，若是須要對明細數據中的某個離散變量進行聚合(均值、求和、最大、最小、方差等)後再繪製條形圖的話，建議先使用dplyr包中的group_by()函數和summarize()函數實現數據彙總，具體可參見：

上面的兩幅圖對應的x軸均爲離散的字符型值，若是x值是數值型時，該如何正確繪製條形圖？

若是直接使用數值型變量做爲條形圖的x軸，咱們會發現條形圖之間產生空缺，這個空缺其實對應的是3和5兩個值，這樣的圖形並不美觀。爲了可以使條形圖之間不存在相似的空缺，須要將數值型的x轉換爲因子，即factor(x)，以下圖所示：

上面幾幅圖的顏色均爲灰色的，顯得並非那麼亮眼，爲了使顏色更加豐富多彩，能夠在geom_bar()函數內經過fill參數可colour參數設置條形圖的填充色和邊框色，例如：

關於顏色的選擇能夠在R控制檯中輸入colours()，將返回657種顏色的字符。若是想查看全部含紅色的顏色值，能夠輸入colours()[grep(‘red’,
colours())]返回27種紅色。

以上繪製的條形圖均是基於一個離散變量做爲x軸，若是想繪製兩個離散變量的條形圖即簇條形圖該如何處理呢？具體見下方例子：

對於簇條形圖只需在ggplot()函數的aes()參數中將其餘離散變量賦給fill參數便可。這裏的position參數表示條形圖的擺放形式，默認爲堆疊式(stack)，還能夠是百分比的堆疊式。下面分別設置這兩種參數，查看一下條形圖的擺放形式。

發現一個問題，條形圖的堆疊順序(A,B,C)與圖例順序(C,B,A)剛好相反，這個問題該如何處理呢？很簡單，只需再添加guides()函數進行設置便可，以下所示：

一樣，若是以爲R自動配置的填充色很差看，還能夠根據自定義的形式更改條形圖的填充色，具體使用scale_fill_brewer()和scale_fill_manual()函數進行顏色設置。

ggplot(data = df, mapping = aes(x = factor(x), y = z, fill = y)) + geom_bar(stat= 'identity', position = 'dodge') + scale_fill_brewer(palette = 'Accent')

scale_fill_manual()函數容許用戶給指定的分類水平設置響應的色彩，我的以爲這個比較方便

按z值的大小，從新排列條形圖的順序，只需將aes()中x的屬性用reorder()函數更改便可。

stat參數和position參數均設置爲identity，目的是圖形繪製不要求對原始數據作任何的變換，包括統計變換和圖形變換，排除圖例能夠經過scale_fill_manual()函數將參數guide設置爲FALSE，同時該函數還能夠自定義填充色，一箭雙鵰。

ggplot(data = df, mapping = aes(x = x, y = y, fill = judge))+
geom_bar(stat = 'identity', position = 'identity')+
scale_fill_manual(values = c('blue','red'), guide = FALSE)+
xlab('Year')

geom_bar()函數能夠很是靈活的將條形圖的條形寬度進行變寬或變窄設置,具體經過函數的width參數實現，width的最大值爲1，默認爲0.9。

x <- c("A","B","C","D","E")
y <- c(10,20,15,22,18)
df <- data.frame(x = x,y = y)
# 不做任何條形寬度的調整
ggplot(df,aes(x = x,y = y))+
geom_bar(stat = "identity",fill = "steelblue",colour = "black")

# 使條形寬度變寬
ggplot(df,aes(x = x,y = y))+geom_bar(stat = "identity",fill = "steelblue",colour = "black",width = 1)

對於簇條形圖來講，還能夠調整條形之間的距離，默認狀況下，條形圖的組內條形間隔爲0，具體可經過函數的position_dodge參數實現條形距離的調整，爲了美觀，通常將條形距離設置的比條形寬度大一點。

調整條形寬度和條形距離

geom_text()函數能夠方便的在圖形中添加數值標籤，具體微調從幾個案例開始：

ylim設置條形圖中y軸的範圍；size調整標籤字體大小，默認值爲5號；colour更換標籤顏色；vjust調整標籤位置，1爲分界線，越大於1，標籤越在條形圖上界下方，反之則越在條形圖上上界上方。

# vjust 調整標籤豎直位置,越大,標籤越在條形圖的上界下方；0.5時，則在中間。
# hjust 調整標籤水平位置，越大,標籤越在條形圖的上界左邊；0.5時，則在中間。

對於水平交錯的簇條形圖，必須經過geom_text()函數中的position_dodge()參數來調整標籤位置，hjust=0.5將標籤水平居中放置。

這裏的圖形位置與標籤位置擺放必須一致，即圖形位置geom_bar()函數中的position = 'dodge'參數，標籤位置geom_text()函數中的position
= position_dodge(0.9)參數。

對於堆疊的簇條形圖，必須經過geom_text()函數中的position_stack()參數來調整標籤位置，hjust將標籤水平居中放置。

這裏的圖形位置與標籤位置擺放必須一致，即圖形位置geom_bar()函數中的position = 'stack'參數，標籤位置geom_text()函數中的position
= position_stack()參數。

補充:統計變換
若x軸變量爲連續的，則用sta = bin；
若離散型的,可用stat = 「count」或stat = 「identity」

Chap4. 折線圖

概述

折線圖能夠反映某種現象的趨勢。一般折線圖的橫座標是時間變量，縱座標則是通常的數值型變量。固然，折線圖也容許橫縱座標爲離散型和數值型。

折線圖一般用來對兩個連續變量之間的相互依存關係進行可視化。其中x也能夠是因子型變量。

簡單折線圖

善於發現的你，可能會注意到上面三段代碼有一個重要的不一樣之處，那就是第一段和第二段代碼中含有‘group = 1’的設置。這樣作是由於橫座標的屬性設置爲了因子，即將連續型的年份和離散型的字符轉換爲因子，若是不添加‘group = 1’這樣的條件，繪圖將會報錯。故務必須要記住這裏的易犯錯誤的點！

往折線圖中添加標記（點）當數據點密度比較小或採集分佈(間隔)不均勻時，爲折線圖作上標記將會產生很是好的效果。處理的方法很是簡單，只需在折線圖的基礎上再加上geom_point()函數便可。

year <- c(1990,1995,2000,2003,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015)

ggplot(data = df, mapping = aes(x = year, y = value)) + geom_line() + geom_point()

從圖中就能夠很是明顯的看出，剛開始採集的點分佈很是散，然後面採集的點就比較密集，這也有助於對圖的理解和應用。

2、繪製多條折線圖上面繪製的都是單條這折線圖，對於兩個或兩個以上的折線圖該如何繪製呢？也很簡單，只需將其餘離散變量賦給諸如colour(線條顏色)和linetype(線條形狀)的屬性便可，具體參見下文例子。

一樣須要注意的是，在繪製多條折線圖時，若是橫座標爲因子，必須還得加上‘group=分組變量’的參數，不然報錯或繪製出錯誤的圖形。

以上繪製的折線圖，均採用默認格式，不管是顏色、形狀、大小仍是透明度，均沒有給出自定義的格式。其實ggplot2包也是容許用戶根據本身的想法設置這些屬性的。

雖然這幅圖畫的優勢誇張，目的是想說明能夠經過自定義的方式，想怎麼改就能夠怎麼改。前提是aes()屬性的內容與自定義的內容對應上。

繪製堆疊的面積圖只須要geom_area()函數再加上一個離散變量映射到fill就能夠輕鬆實現，先忙咱小試牛刀一下。

一幅堆疊的面積圖就輕鬆繪製成功，但咱們發現，堆疊的順序與圖例的順序剛好相反，不用急，只須要加一句命令便可：

若是須要爲每一塊麪積圖的頂部加上一條直線，能夠經過以下兩種方式：

其中，colour設置面積圖邊框的顏色；size設置邊框線的粗細；alpha設置面積圖和邊框線的透明度。

該方法是經過添加堆疊線條（必須設置geom_line()中position參數爲‘stack’，不然只是添加了兩條線，沒法與面積圖的頂部重合）。這兩幅圖的區別在於第二種方式沒有繪製面積圖左右邊框和底邊框。在實際應用中，建議不要在面積圖中繪製邊框線，由於邊框的存在可能產生誤導。

在面積圖中，也能夠方便快捷的繪製出百分比堆積面積圖，具體操做以下：

但經過這種方式（設置面積圖的positon='fill'）存在一點點小缺陷，即沒法繪製出百分比堆積面積圖頂部的線條，該如何實現呢？這裏只須要對原始數據集作一步彙總工做，讓後循序漸進的繪製面積圖便可。

ggplot(data = df_summarize, mapping = aes(x = year, y = value2, fill = type)) + geom_area(alpha = 0.6) + geom_line(colour = 'black', size = 1, position = 'stack', alpha = 0.6) + guides(fill = guide_legend(reverse = TRUE))

Chap5. 散點圖

概述

散點圖

散點圖一般用來刻畫兩個連續型變量之間的關係，數據集中的每一條觀測都由散點圖中的一個點來表示。在散點圖中也能夠加入一些直線或曲線，用來表示基於統計模型的擬合。當數據集記錄不少時，散點圖可能會彼此重疊，這種狀況每每須要一些預處理操做。

1 基本散點圖

散點圖能夠用來描述兩個連續變量之間的關係,通常在作數據探索分析時會使用到,經過散點圖發現變量之間的相關性強度、是否線性關係等。

可使用shape和size分別指定點型和點的大小，若是點型包括填充和描邊的話，可用fill和color分別指定填充色和描邊色。

2 基於類別型變量分組

可將分組變量(因子或字符變量)賦值給顏色或形狀屬性,實現分組散點圖的繪製

能夠將因子和字符串等類別型變量映射到散點的顏色或形狀。

set.seed(112)
x <- rnorm(100,mean = 2,sd = 3)
y <- 1.5+2*x+rnorm(100)
z <- sample(c(0,1),size = 100,replace = TRUE)
df <- data.frame(x = x,y = y,z = z)
# 將數值型變量轉換爲因子型變量
df$z <- factor(df$z)

#分組變量賦值給顏色屬性
ggplot(df,aes(x = x,y = y,colour = z))+
geom_point(size = 3)

#分組變量賦值給形狀屬性
ggplot(df,aes(x = x,y = y,shape = z))+
geom_point(size = 3)

# 分組變量同時賦給顏色屬性和形狀屬性
ggplot(df,aes(x = x,y = y,shape = z,colour = z))+
geom_point(size = 3)+
scale_color_brewer(palette = "Accent")+
scale_shape_manual(values = c(2,16))

注意點的形狀,21-25之間的點的形狀,既能夠賦值邊框顏色,又能夠賦值填充色。

圖例上,顏色越深而對應的值越小,如何將值的大小與顏色的深淺保持一致？只須要人爲的設置色階,從低到高設置不一樣的顏色便可

3 基於連續型變量映射

固然，還能夠將連續型變量映射到散點的顏色或大小等存在漸變的屬性上，從而呈現三個連續型變量之間的關係。其中人眼對於x軸和y軸所對應變量的變化更爲敏感，而對顏色和大小的變化則不那麼敏感。

同時映射類別型變量和連續型變量，並設置散點的面積正比於連續型變量的大小，默認爲非線性映射。

# 將連續型變量映射給顏色屬性,同時設置雙色梯度
ggplot(df,aes(x = x,y = y,colour = z))+geom_point(size = 3)+scale_colour_gradient(low = "lightblue",high = "darkblue")

# 將連續變量映射給大小屬性
ggplot(df,aes(x = x,y = y,size = z))+ geom_point()

# 將連續型變量賦給顏色屬性或大小屬性,自定義雙色梯度,色階間隔順序由低到高
ggplot(df,aes(x = x,y = y,fill = z))+ geom_point(shape = 21,size = 3)+
scale_fill_gradient(low = "lightblue",high = "darkblue",breaks = c(100,150,200,300,350,400))

# 自定義球大小的間隔
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+
scale_size_continuous(breaks = c(100,150,200,250,300,350,400),guide = guide_legend())
# scale_size(breaks = c(100,150,200,250,300,350,400))結果同樣

# 將連續變量值的大小與球的大小成比例
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+scale_size_area(max_size = 10)
# scale_size_area()能夠確保數值0映射爲0,max_size保證映射最大的點的大小

當x軸和y軸對應一個或兩個離散型變量時，例如雖然對應數值，可是數值僅取某些離散點，能夠給散點圖添加擾動，使得散點分離開來。

如下使用Logistic迴歸擬合一個二分類的樣本，能夠看出V1和classn具備二分類關係，Logistic迴歸曲線也說明了這一點。

若是已經將類別型變量映射到散點的顏色或形狀，則在添加擬合線時會分別爲每一組添加一條擬合線。能夠看到身高隨着年齡增加而增長，到必定年齡後中止增加，且男性比女性平均身高更高。

散點圖矩陣

散點圖矩陣用於展現多幅散點圖，pairs()函數能夠建立基礎的散點圖矩陣，如下代碼包含mpg、disp、drat和wt中任意二者的散點圖。

car包的scatterplotMatrix()函數也能夠生成散點圖矩陣，並支持如下操做：

再來一個scatterplotMatrix()函數的使用例子，主對角線的核密度曲線改成了直方圖，而且直方圖以汽車氣缸數爲條件繪製。

gclus包中的cpairs()函數提供了一個有趣的散點圖矩陣變種，支持重排矩陣中變量的位置，讓相關性更高的變量更靠近主對角線，還能夠對各單元格進行顏色編碼來展現變量間的相關性大小。

能夠發現相關性最高（0.89）的是車重（wt）和排量（disp），以及車重（wt）和每加侖英里數（mpg）。相關性最低（0.68）的是每加侖英里數（mpg）和後軸比（drat）。如下代碼根據相關性大小，對散點圖矩陣中的這些變量從新排序並着色。

高密度散點圖

當散點圖中點數量過大時，數據點的重疊將會致使繪圖效果顯著變差。對於這種狀況，可使用封箱、顏色和透明度等來指定圖中任意點上重疊點的數目。

smoothScatter()函數可利用核密度估計生成用顏色密度來表示點分佈的散點圖。

hexbin包中的hexbin()函數將二元變量的封箱放到六邊形單元格中。

三維散點圖

若是想一次性對三個定量變量的交互進行可視化，那麼可使用scatterplot3d中的scatterplot3d()函數進行繪製。

scatterplot3d()函數提供了許多選項，包括設置圖形符號、軸、顏色、線條、網格線、突出顯示和角度等功能。例如如下代碼生成一幅突出顯示效果的三維散點圖，加強了縱深感並添加了鏈接點與水平面的垂直線。

使用rgl包中的plot3d()函數可建立交互式的三維散點圖，經過鼠標便可對圖形進行旋轉。

7 添加文本標註

使用geom_text()爲散點圖添加標註，vjust爲0時表示豎直方向上基線對齊，爲1時表示頂部對齊，hjust爲0時表示水平方向上左對齊，爲1時表示右對齊，如下設置對齊方式並適當添加偏移，以改善顯示效果。

8 使用氣泡圖繪製二維統計

如下使用散點圖繪製氣泡圖，對兩個類別型變量進行統計。

value1 <- rep(c('高價值','中價值','低價值'), each = 3)
value2 <- rep(c('高價值','中價值','低價值'), times = 3)
nums <- c(500,287,123,156,720,390,80,468,1200)
df <- data.frame(value1 = value1, value2 = value2, nums = nums)
df$value1 <- factor(df$value1, levels = c('高價值','中價值','低價值'), order = TRUE)
df$value2 <- factor(df$value2, levels = c('低價值','中價值','高價值'), order = TRUE)
ggplot(df,aes(x = value1, y = value2, size = nums)) +geom_point(colour = 'steelblue') +
scale_size_area(max_size = 30, guide = FALSE) +geom_text(aes(label = nums), vjust = 0, colour = 'black', size = 5) + theme(text = element_text(family = 'SimSun'))

繪製氣泡圖也可以使用函數symbols(x,y,circle=r).當中x、y是座標軸，r是每個點的半徑。
x<-rnorm(6)
y<-rnorm(6)
r<-abs(rnorm(6))
symbols(x,y,circle = r, bg=rainbow(6))

###############氣泡圖例子2
attach(mtcars) # 激活或掛接數據集
#attach( )函數是將數據框添加到R的搜索路徑中 # mtcars爲R語言內置數據集
r<-sqrt(disp/pi)
symbols(wt,mpg,circle=r, inches=0.3, bg="lightblue")
text(wt,mpg,row.names(mtcars), cex=0.5) #給每個氣泡加上文字。

Chap6. 描述數據分佈

直方圖

咱們常常想觀察一批數據的分佈形態，直方圖、密度圖、箱線圖、小提琴圖和點圖等都是很好的實現形式。在此，咱們簡略介紹直方圖、密度圖和箱線圖，這種三種圖形對咱們來講更爲經常使用。

直方圖

不少人沒搞清楚條形圖和直方圖之間的區別。條形圖主要用於展現分類數據，即名義數據，各組分開而立。而直方圖多用於展現數值型數據，各組相依。

單組直方圖

最基本的語句就是在ggplot語句後再加geom_histogram()便可。

分組直方圖

分組直方圖作法與其餘圖形同樣，咱們用到facet_grid(var ~ .)，該方法是以var變量進行分類，作多個圖形，非一個圖形中作多個直方圖。若是變量爲數字，應當因子化。

核密度曲線

分組密度曲線

頻數多邊形

頻數多邊形描述了數據自己的信息，而核密度曲線只是一個估計，須要認爲輸入帶寬參數。

箱線圖

library(MASS) #取binwidth數據
ggplot(birthwt, aes(x=bwt))+geom_histogram(fill="white", colour="black")+facet_grid(smoke ~ .)

小提琴圖

p = ggplot(data=mpg, mapping=aes(x=class, y=hwy, fill=class))
p + geom_boxplot() + geom_jitter(shape=21)
p + geom_violin(alpha=0.5, width=0.9) + geom_jitter(shape=21)

Wilkinson點圖

顏色圖和等高圖
par(mar = rep(1, 4))
x = 10 * (1:nrow(volcano))
y = 10 * (1:ncol(volcano))
image(x, y, volcano, col = terrain.colors(100), axes = FALSE)
contour(x, y, volcano, levels = seq(90, 200, by = 5),add = TRUE, col = "peru")
box()

dt = data.frame(A = c(2, 7, 4, 10, 1,5), B = c('B','A','C','D','E','B'))
windowsFonts(myFont = windowsFont("楷體")) ## 綁定字體
p = ggplot(dt, aes(x = B, y = A, fill = B)) + geom_bar(stat = "identity", alpha = 0.7) + coord_polar()
p

Chap7. 註解

文本註解

數學表達式

添加直線

添加線段和箭頭

添加矩形陰影

添加偏差線

向獨立分面添加註解

1 添加文本註解

使用annotate()生成一條文本註解，經過x和y指定文本位置，能夠是具體數值或者Inf和-Inf，表示圖形的邊緣，使用hjust和vjust進行水平方向和豎直方向上的微調，使用family、color、size分別指定字體、顏色、大小。

2 添加數學表達式

仍是使用annotate()，不過須要制定parse爲TRUE，表示對文本進行公式解析。

更多和公式語法有關的內容可參考?plotmath，更多數學表達式的圖示可參考?demo(plotmath)。

3 添加直線

使用geom_hline()、geom_vline()、geom_abline()分別繪製水平線、豎直線和有角度的線。若是x軸或y軸爲類別型變量，則第一個水平爲數值1，第二個水平爲數值2，依此類推。

4 添加線段和箭頭

在annotate()中指定segment能夠添加線段，還能夠爲線段添加箭頭，箭頭默認角度angle爲30度，默認長度length爲0.2英寸，使用x、xend、y、yend指定線段的起始位置。若是x軸或y軸爲類別型變量，則相應地第一個水平使用數值1，第二個水平使用數值2，依次類推。

5 添加矩形陰影

在annotate()中指定rect能夠添加矩形，其實只要傳遞了合適的參數，任意幾何對象均可以配合annotate()使用。

6 向獨立分面添加註解

使用分面變量生成一個新的數據框，並設定每一個分面要繪製的值，而後配合新數據框使用geom_text()。

Chap8. 座標軸

交換x軸和y軸

座標軸的值域

反轉一條連續型座標軸

修改類別型座標軸上項目的順序

設置x軸和y軸的縮放比例

默認狀況下，ggplot2使兩軸的總長寬比例爲1：1，從而造成正方形的繪圖區域，而本節中所提到的比例爲：座標軸單位長度表示的數值範圍

設置刻度線的位置

離散型變量的座標軸：設置limits以重排序或移除項目，而設置breaks來控制哪些項目擁有標籤。

移除刻度線和標籤

修改刻度標籤的文本

package:scales自帶了一些內置的格式化函數，好比comma(),dollar(),percent(),scientific()

修改刻度標籤的外觀

修改座標軸標籤的文本

移除座標軸標籤

對數座標軸

對數座標軸添加刻度

座標軸上使用日期

Chap9.控制圖形的總體外觀

設置圖形標題

修改文本外觀

文本項目分爲兩類：主題元素和文本幾何對象。主題元素包括圖形中的全部非數據元素：如標題、圖例和座標軸。文本幾何對象則屬於圖形自己的一部分。

使用主題

要修改一套主題，配合相應的element_xx對象添加theme()函數便可。element_xx對象包括element_line、element_rect和element_text。

建立自定義主題

隱藏網格線

Chap10. 圖例

像x軸和y軸同樣，圖例也是一種引導元素：它能夠向人們展現如何從視覺上的圖形屬性映射回數據自己。

Chap11. 分面

數據可視化中最實用的技術之一就是將分組數據並列呈現，這樣使得組間的比較變得垂手可得。

即在一個頁面上自動擺放多幅圖形, 這一過程先將數據劃分爲多個子集, 而後將每一個子集依次繪製到頁面的不一樣面板中。ggplot2提供兩種分面類型：網格型(facet_grid)和封面型(facet_wrap)。網格分面生成的是一個2維的面板網格, 面板的行與列經過變量來定義, 本質是2維的; 封裝分面則先生成一個1維的面板條塊, 而後再分裝到2維中, 本質是1維的。
在不少狀況下, 咱們可能須要繪製有兩個y軸的座標系, 而在ggplot2中, 這種作法特別不提倡(stackover的討論), 可解決的方法要麼是把變量歸一化, 要麼即是採用分面方法。

p <- ggplot(mtcars, aes(mpg, wt, colour = cyl)) +geom_point() #geom_point()爲經過」+」以圖層的方式加入點的幾何對象
p <- ggplot(mtcars, aes(mpg, wt)) + geom_point()
p + facet_grid(. ~ cyl) #以cyl爲分類變量
p + facet_wrap( ~ cyl, nrow = 3) #wrap與grid的區別
p + facet_grid(cyl ~ .) #以cyl爲分類變量
p + facet_wrap( ~ cyl, ncol = 3) #wrap與grid的區別
p + facet_grid(vs ~ am) #以vs和am爲分類變量
p + facet_wrap(vs ~ am, ncol = 2) #wrap與grid 的區別

離散型變量調色板

對類別型數據中的點而言，最好選擇調色板Set1和Dark2；對面積而言，Set2、Pastel1、Pastel2和Accent都是不錯的選擇方案。

RGB顏色

RGB顏色是由六個數字組成(十六進制數)，形式如「#RRGGBB」。在十六進制中，數字先從0到9，而後緊接着是A到F。每個顏色都由兩個數字表示，範圍從00到FF。好比顏色「#FF0099」中，255表示紅色，0表示綠色，153表示藍色，總體表示品紅色。十六進制數中每一個顏色通道經常重複一樣的數字，因子這樣更容易閱讀而且第二個數字的精確值對外觀的影響並非很明顯。

RGB經驗法則

色盲友好式調色板

連續型變量調色板

Chap15. 其餘圖形

相關矩陣圖

繪製函數曲線

繪製熱圖

使用geom_tile()或者geom_raster()，並將一個連續變量映射到fill上。

三維散點圖

繪製譜系圖

繪製QQ圖

繪製馬賽克圖

繪製餅圖

繪製地圖

Chap14. 保存圖形

輸出爲PDF矢量文件

輸出爲SVG矢量文件

輸出爲WMF矢量文件

輸出爲點陣(PNG/TIFF)文件

在圖中顯示中文

一頁多圖

視圖窗口(viewport):顯示設備的一個矩陣子區域。grid.layout()設置了一個任意高和寬的視圖窗口布局。

默認的grid.layout()中，每一個單元格的大小都相同，能夠設置widths和heights參數使得它們具備不一樣的大小。

時間序列

數據下載

 
      
       
         
         
           #用excel導入數據, 格式爲csv 
          
 
           ori.data < 
           -  
           read.csv( 
           "lesson8.csv" 
           , header  
           =  
           F) 
          
 
           #以矩陣的方式讀入數據, 按行排列, 每三列換一行 
          
 
           data < 
           -  
           matrix(as.matrix(ori.data), nrow(ori.data)  
           /  
           3 
           ,  
           3 
           , byrow  
           =  
           TRUE) 
          
 
           #關閉區域特定的時間編碼方式 
          
 
           Sys.setlocale( 
           "LC_TIME" 
           ,  
           "C" 
           ) 
          
 
           #用as.POSIXlt()讀入字符串數據並轉化爲date數據, 賦值給date, 或as.Date() 
          
 
           date < 
           -  
           as.POSIXlt(data[,  
           1 
           ], tz  
           =  
           " 
           ", " 
           % 
           a  
           % 
           b  
           % 
           d  
           % 
           H: 
           % 
           M: 
           % 
           S HKT  
           % 
           Y") 
          
 
           #對ip和pv所在的列轉化爲數值型 
          
 
           IP < 
           -  
           as.numeric(data[,  
           2 
           ]) 
          
 
           PV < 
           -  
           as.numeric(data[,  
           3 
           ]) 
          
 
           head(data) 
          
 
           #恢復區域特意的時間編碼方式 
          
 
           Sys.setlocale( 
           "LC_TIME" 
           , "") 
          
 
           #用ggplot2繪圖 
          
 
           require(ggplot2) 
          
 
           #用reshape包中的melt函數分解數據 
          
 
           require(reshape2) 
          
 
           p.data < 
           -  
           data.frame(date, IP, PV) 
          
 
           meltdata < 
           -  
           melt(p.data,  
           id  
           =  
           (c( 
           "date" 
           ))) 
          
 
           #用對IP和PV作分頁處理, y軸刻度自由變化 
          
 
           graphic < 
           -  
           ggplot(data  
           =  
           meltdata, aes(x  
           =  
           date, y  
           =  
           value, color  
           =  
           variable))  
           +  
           geom_line()  
           +  
           geom_point() 
          
 
           graphic < 
           -  
           graphic  
           +  
           facet_grid(variable ~ ., scales  
           =  
           "free_y" 
           ) 
          
 
           #美化, 添加標題, 座標, 更改圖例 
          
 
           graphic< 
           -  
           graphic  
           +  
           labs(x  
           =  
           "日期" 
           , y  
           =  
           "人次" 
           , title  
           =  
           "某網站7月至10月IP/PV統計" 
           )  
           + 
          
 
              
           theme(plot.title  
           =  
           element_text(size  
           =  
           20 
           , face  
           =  
           "bold" 
           ))  
           + 
          
 
              
           scale_colour_discrete(name  
           =  
           " 
           ",labels = c(" 
           IP 
           "," 
           PV"))  
           + 
          
 
              
           theme(strip.text.y  
           =  
           element_text(angle  
           =  
           0 
           )) 
          
 
       
 
      
    

地圖

 
      
       
         
         
           require(maps) 
          
 
           require(ggplot2) 
          
 
           #用直方圖看下pop總體的分佈 
          
 
           #能夠發現數據分佈較變化較大, 因此對pop作log轉化 
          
 
           qplot(pop, data  
           =  
           us.cities, binwidth  
           =  
           0000 
           , geom  
           =  
           "histogram" 
           ) 
          
 
           qplot(log(pop), data  
           =  
           us.cities, binwidth  
           =  
           0.03 
           , geom  
           =  
           "histogram" 
           ) 
          

              
          
 
           #繪製背景地圖 
          
 
           USA.POP < 
           -  
           ggplot(us.cities, aes(x  
           =  
           long 
           , y  
           =  
           lat))  
           +  
           xlim( 
           - 
           130 
           ,  
           - 
           65 
           )  
           +  
           borders( 
           "state" 
           , size 
           = 
           0.5 
           ) 
           + 
          
 
              
           geom_point(aes(size  
           =  
           log(pop), color  
           =  
           factor(capital), alpha  
           =  
           1 
           / 
           50 
           )) 
           + 
          
 
              
           #對size標度的調整參考http://docs.ggplot2.org/0.9.3.1/scale_size.html 
          
 
              
           scale_size( 
           range 
           = 
           c( 
           0 
           ,  
           7 
           ), name  
           =  
           "log(City population)" 
           ) 
           + 
          
 
              
           #對離散型顏色變量的標度調整參考http://docs.ggplot2.org/0.9.3.1/scale_manual.html 
          
 
              
           #對連續型顏色標量的標度調整參考http://docs.ggplot2.org/0.9.3.1/scale_brewer.html 
          
 
              
           #和http://docs.ggplot2.org/0.9.3.1/scale_gradient2.html 
          
 
              
           scale_color_manual(values  
           =  
           c( 
           "black" 
           ,  
           "red" 
           ), labels  
           =  
           c( 
           "state capital" 
           ,  
           "city" 
           )) 
           + 
          
 
              
           #調整圖例 
          
 
              
           guides(color  
           =  
           guide_legend(title 
           = 
           NULL))  
           +  
           scale_alpha(guide  
           =  
           FALSE) 
           + 
          
 
              
           #繪製標題和座標軸 
          
 
              
           labs(x  
           =  
           "longtitude" 
           , y  
           =  
           "latitude" 
           , title  
           =  
           "City Population in the United States" 
           ) 
           + 
          
 
              
           theme(plot.title  
           =  
           element_text(size 
           = 
           20 
           )) 
          
 
               
          
 
           #輸出圖像 並用cairo包進行抗鋸齒處理 
          
 
           ggsave(USA.POP,  
           file  
           =  
           "USA_POP.png" 
           ,  
           type  
           =  
           "cairo" 
           , width  
           =  
           10 
           , height  
           =  
           6.75 
           ) 
          
 
       
 
      
    

固然, 這只是簡單的地圖繪製方法,統計之都上也有不少大牛來用R繪製各類各樣精美的地圖(1, 2)。

劑量-效應曲線

R中的drc包很容易對各類劑量-效應曲線進行繪圖, 此處採用較爲經常使用的log-logistic四參數方程擬合了劑量-效應曲線。

數據下載

 
      
       
         
         
           ori.data < 
           -  
           read.csv( 
           "D-R curve.csv" 
           ) 
          
 
           require(drc) 
          
 
           require(reshape2) 
          
 
           #把數據融合 
          
 
           melt.data < 
           -  
           melt(ori.data,  
           id  
           =  
           c( 
           "dose" 
           ), value.name  
           =  
           "response" 
           )[,  
           - 
           2 
           ] 
          
 
           #用drc包中的log-logistic四參數方程進行擬合建模 
          
 
           model < 
           -  
           drm(response ~ dose, data  
           =  
           melt.data, fct  
           =  
           LL. 
           4 
           (names  
           =  
           c( 
           "Slope" 
           ,  
           "Lower Limit" 
           ,  
           "Upper Limit" 
           ,  
           "EC50" 
           ))) 
          
 
           #肯定x軸範圍並構建數據集 
          
 
           min  
           < 
           -  
           range 
           (ori.data$dose)[ 
           1 
           ] 
          
 
           max  
           < 
           -  
           range 
           (ori.data$dose)[ 
           2 
           ] 
          
 
           line.data < 
           -  
           data.frame(d.predict  
           =  
           seq( 
           min 
           ,  
           max 
           , length.out  
           =  
           1000 
           )) 
          
 
           #用模型預測數據構建數據集 
          
 
           line.data$p.predict < 
           -  
           predict(model, newdata  
           =  
           line.data) 
          
 
           #構建繪圖數據, 可以計算偏差棒 
          
 
           require(plyr) 
          
 
           p.data < 
           -  
           ddply(melt.data, .(dose), colwise(mean)) 
          
 
           p.data$sd < 
           -  
           ddply(melt.data, .(dose), colwise(sd))[, 
           2 
           ] 
          

              
          
 
           require(ggplot2) 
          
 
           p < 
           -  
           ggplot()  
           + 
          
 
              
           geom_errorbar(data  
           =  
           p.data, width  
           =  
           0.1 
           , size  
           =  
           1 
           , 
          
 
                            
           aes(ymax  
           =  
           response  
           +  
           sd, ymin  
           =  
           response  
           -  
           sd, x  
           =  
           dose))  
           + 
          
 
              
           geom_point(data  
           =  
           p.data, aes(x  
           =  
           dose, y  
           =  
           response),  
          
 
                         
           color  
           =  
           "red" 
           , alpha  
           =  
           0.5 
           , size  
           =  
           5 
           )  
           + 
          
 
              
           geom_line(data  
           =  
           line.data, aes(x  
           =  
           d.predict, y  
           =  
           p.predict),  
          
 
                          
           size  
           =  
           1 
           , color  
           =  
           "blue" 
           )  
           + 
          
 
              
           #改變座標軸間隔 
          
 
              
           scale_x_log10(name  
           =  
           "Dose" 
           , 
          
 
                            
           breaks 
           = 
           c( 
           0.05 
           ,  
           0.1 
           ,  
           0.5 
           ,  
           1 
           ,  
           5 
           ,  
           10 
           ,  
           50 
           ,  
           100 
           ))  
           + 
          
 
              
           scale_y_continuous(name  
           =  
           "Response" 
           )  
           + 
          
 
              
           theme_bw() 
          
 
           #查看擬合模型參數 
          
 
           summary(model) 
          
 
       
 
      
    

幾何對象函數	描述
geom_abline	線圖，由斜率和截距指定
geom_area	面積圖（即連續的條形圖）
geom_bar	條形圖
geom_bin2d	二維封箱的熱圖
geom_blank	空的幾何對象，什麼也不畫
geom_boxplot	箱線圖
geom_contour	等高線圖
geom_crossbar	crossbar圖（相似於箱線圖，但沒有觸鬚和極值點）
geom_density	密度圖
geom_density2d	二維密度圖
geom_errorbar	偏差線（一般添加到其餘圖形上，好比柱狀圖、點圖、線圖等）
geom_errorbarh	水平偏差線
geom_freqpoly	頻率多邊形（相似於直方圖）
geom_hex	六邊形圖（一般用於六邊形封箱）
geom_histogram	直方圖
geom_hline	水平線
geom_jitter	點、自動添加了擾動
geom_line	線
geom_linerange	區間，用豎直線來表示
geom_path	幾何路徑，由一組點按順序鏈接
geom_point	點
geom_pointrange	一條垂直線，線的中間有一個點（與Crossbar圖和箱線圖相關，能夠用來表示線的範圍）
geom_polygon	多邊形
geom_quantile	一組分位數線（來自分位數迴歸）
geom_rect	二維的長方形
geom_ribbon	彩虹圖（在連續的x值上表示y的範圍，例如Tufte著名的拿破崙遠征圖）
geom_rug	觸鬚
geom_segment	線段
geom_smooth	平滑的條件均值
geom_step	階梯圖
geom_text	文本
geom_tile	瓦片（即一個個的小長方形或多邊形）
geom_vline	豎直線

統計變換函數	描述
stat_abline	添加線條，用斜率和截距表示
stat_bin	分割數據，而後繪製直方圖
stat_bin2d	二維密度圖，用矩陣表示
stat_binhex	二維密度圖，用六邊形表示
stat_boxplot	繪製帶觸鬚的箱線圖
stat_contour	繪製三維數據的等高線圖
stat_density	繪製密度圖
stat_density2d	繪製二維密度圖
stat_function	添加函數曲線
stat_hline	添加水平線
stat_identity	繪製原始數據，不進行統計變換
stat_qq	繪製Q-Q圖
stat_quantile	連續的分位線
stat_smooth	添加平滑曲線
stat_spoke	繪製有方向的數據點（由x和y指定位置，angle指定角度）
stat_sum	繪製不重複的取值之和（一般用在三點圖上）
stat_summary	繪製彙總數據
stat_unique	繪製不一樣的數值，去掉重複的數值
stat_vline	繪製豎直線

標度函數	描述
scale_alpha	alpha通道值（灰度）
scale_brewer	調色板，來自colorbrewer.org網站展現的顏色標度
scale_continuous	連續標度
scale_data	日期
scale_datetime	日期和時間
scale_discrete	離散值
scale_gradient	兩種顏色構建的漸變色
scale_gradient2	3中顏色構建的漸變色
scale_gradientn	n種顏色構建的漸變色
scale_grey	灰度顏色
scale_hue	均勻色調
scale_identity	直接使用指定的取值，不進行標度轉換
scale_linetype	用線條模式來展現不一樣
scale_manual	手動指定離散標度
scale_shape	用不一樣的形狀來展現不一樣的數值
scale_size	用不一樣大小的對象來展現不一樣的數值

座標函數	描述
coord_cartesian	笛卡兒座標
coord_equal	等尺度座標（斜率爲1）
coord_flip	翻轉笛卡兒座標
coord_map	地圖投影
coord_polar	極座標投影
coord_trans	變換笛卡兒座標

定位函數	描述
position_dodge	並列
position_fill	填充
position_identity	不對位置進行處理
position_jitter	擾動處理
position_stack	堆疊處理

參數	描述	默認值
data	要繪圖的數據框
mapping	一系列圖形屬性的映射	aes()
environment	圖形屬性參數所在的環境	globalenv()
...

分面函數	描述
facet_grid	將分面放置在二維網格中
facet_wrap	將一維的分面按二維排列

R語言 ggplot2包

R語言 ggplot2包的學習

基本語法：

幾何對象：

統計變換

標度函數

座標系

分面

位置

Chap1. R 基礎

Chap2. 快速探索數據（略）

條形圖

直方圖

箱線圖

繪製函數圖像

Chap3. 條形圖

參數

條形圖

調整條形寬度和條形距離

Chap4. 折線圖

概述

簡單折線圖

Chap5. 散點圖

概述

散點圖

1 基本散點圖

2 基於類別型變量分組

3 基於連續型變量映射

處理散點重合的基本思路包括：

散點圖矩陣

高密度散點圖

三維散點圖

7 添加文本標註

8 使用氣泡圖繪製二維統計

Chap6. 描述數據分佈

直方圖

直方圖

單組直方圖

分組直方圖

核密度曲線

分組密度曲線

頻數多邊形

箱線圖

小提琴圖

Wilkinson點圖

Chap7. 註解

文本註解

數學表達式

添加直線

添加線段和箭頭

添加矩形陰影

添加偏差線

向獨立分面添加註解

1 添加文本註解

2 添加數學表達式

3 添加直線

4 添加線段和箭頭

5 添加矩形陰影

6 向獨立分面添加註解

Chap8. 座標軸

交換x軸和y軸

座標軸的值域

反轉一條連續型座標軸

修改類別型座標軸上項目的順序

設置x軸和y軸的縮放比例

設置刻度線的位置

移除刻度線和標籤

修改刻度標籤的文本

修改刻度標籤的外觀

修改座標軸標籤的文本

移除座標軸標籤

對數座標軸

對數座標軸添加刻度

座標軸上使用日期

4 修改類別型座標軸上項目的順序

7 修改標題和座標軸標籤文本

9 繪製極座標

Chap9.控制圖形的總體外觀

設置圖形標題

修改文本外觀