R語言學習 - 熱圖繪製heatmap

時間 2019-12-11

標籤語言學習繪製 heatmap 简体版

原文原文鏈接

生成測試數據

繪圖首先須要數據。經過生成一堆的向量，轉換爲矩陣，獲得想要的數據。

data <- c(1:6, 6:1, 6:1, 1:6, (6:1)/10, (1:6)/10, (1:6)/10, (6:1)/10, 1:6, 6:1, 6:1, 1:6, 6:1, 1:6, 1:6, 6:1)

[1] 1.0 2.0 3.0 4.0 5.0 6.0 6.0 5.0 4.0 3.0 2.0 1.0 6.0 5.0
[15] 4.0 3.0 2.0 1.0 1.0 2.0 3.0 4.0 5.0 6.0 0.6 0.5 0.4 0.3
[29] 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.1 0.2 0.3 0.4 0.5 0.6
[43] 0.6 0.5 0.4 0.3 0.2 0.1 1.0 2.0 3.0 4.0 5.0 6.0 6.0 5.0
[57] 4.0 3.0 2.0 1.0 6.0 5.0 4.0 3.0 2.0 1.0 1.0 2.0 3.0 4.0
[71] 5.0 6.0 6.0 5.0 4.0 3.0 2.0 1.0 1.0 2.0 3.0 4.0 5.0 6.0
[85] 1.0 2.0 3.0 4.0 5.0 6.0 6.0 5.0 4.0 3.0 2.0 1.0bash

注意：運算符的優先級

> 1:3+4
[1] 5 6 7
> 1:(3+4)
[1] 1 2 3 4 5 6 7

Vector轉爲矩陣 (matrix)，再轉爲數據框 (data.frame)

# ncol 指定列數
# byrow 先按行填充數據
# ?matrix 可查看函數的使用方法
# as.data.frame的as系列是轉換用的
data <- as.data.frame(matrix(data, ncol=12, byrow=T))

# 增長列的名字
colnames(data) <- c("Zygote","2_cell","4_cell","8_cell","Morula","ICM","ESC","4 week PGC","7 week PGC","10 week PGC","17 week PGC","OOcyte")
# 增長行的名字
rownames(data) <- paste("Gene", 1:8, sep="_")
# 只顯示前6行和前4列
head(data)[,1:4]

雖然方法比較繁瑣，但一個數值矩陣已經得到了。

還有另外2種獲取數值矩陣的方式。

讀入字符串

# 使用字符串的好處是不須要額外提供文件
# 簡單測試時可以使用，寫起來不繁瑣，又方便重複
# 尤爲適用於在線提問時做爲測試案例
> txt <- "ID;Zygote;2_cell;4_cell;8_cell
+ Gene_1;1;2;3;4
+ Gene_2;6;5;4;5
+ Gene_3;0.6;0.5;0.4;0.4"

# 習慣設置quote爲空，避免部分基因名字或註釋中存在引號，致使讀入文件錯誤。
> data2 <- read.table(text=txt, sep=";", header=T, row.names=1, quote="")
> head(data2)
       Zygote X2_cell X4_cell X8_cell
Gene_1    1.0     2.0     3.0     4.0
Gene_2    6.0     5.0     4.0     5.0
Gene_3    0.6     0.5     0.4     0.4

能夠看到列名字中以數字開頭的列都加了X。通常要儘可能避免行或列名字以數字開頭，會給後續分析帶去一些困難；另外名字中出現的非字母、數字、下劃線、點的字符都會被轉爲點，也須要注意，儘可能只用字母、下劃線和數字。

# 讀入時，增長一個參數`check.names=F`也能夠解決問題。
# 此次數字前沒有再加 X 了
> data2 <- read.table(text=txt, sep=";", header=T, row.names=1, quote="", check.names = F)
> head(data2)
       Zygote 2_cell 4_cell 8_cell
Gene_1    1.0    2.0    3.0    4.0
Gene_2    6.0    5.0    4.0    5.0
Gene_3    0.6    0.5    0.4    0.4

讀入文件

與上一步相似，只是改成文件名，再也不贅述。

> data2 <- read.table("filename", sep=";", header=T, row.names=1, quote="")

轉換數據格式

數據讀入後，還須要一步格式轉換。在使用ggplot2做圖時，有一種長表格模式是最爲經常使用的，尤爲是數據不規則時，更應該使用。

# 若是包沒有安裝，運行下面一句，安裝包
#install.packages(c("reshape2","ggplot2","magrittr"))
library(reshape2)
library(ggplot2)

# 轉換前，先增長一列ID列，保存行名字
data$ID <- rownames(data)

# melt：把正常矩陣轉換爲長表格模式的函數。工做原理是把所有的非id列的數值列轉爲1列，命名爲value；全部字符列轉爲variable列。
# id.vars 列用於指定哪些列爲id列；這些列不會被merge，會保留爲完整一列。
data_m <- melt(data, id.vars=c("ID"))
head(data_m)

ID variable value

1 Gene_1 Zygote 1.0

2 Gene_2 Zygote 6.0

3 Gene_3 Zygote 0.6

4 Gene_4 Zygote 0.1

5 Gene_5 Zygote 1.0

6 Gene_6 Zygote 6.0

7 Gene_7 Zygote 6.0

8 Gene_8 Zygote 1.0

9 Gene_1 2_cell 2.0

10 Gene_2 2_cell 5.0

11 Gene_3 2_cell 0.5

12 Gene_4 2_cell 0.2

13 Gene_5 2_cell 2.0

14 Gene_6 2_cell 5.0

15 Gene_7 2_cell 5.0

16 Gene_8 2_cell 2.0

分解繪圖

數據轉換後就能夠畫圖了，分解命令以下：

# data_m: 是前面費了九牛二虎之力獲得的數據表
# aes: aesthetic的縮寫，通常指定總體的X軸、Y軸、顏色、形狀、大小等
# 在最開始讀入數據時，通常只指定x和y，其它後續指定
p <- ggplot(data_m, aes(x=variable,y=ID)) 

# 熱圖就是一堆方塊根據其值賦予不一樣的顏色，因此這裏使用fill=value, 用數值作填充色。
p <- p + geom_tile(aes(fill=value))

# ggplot2爲圖層繪製，一層層添加，存儲在p中，在輸出p的內容時纔會出圖。
p
 
## 若是你沒有使用Rstudio或其它R圖形版工具，而是在遠程登陸的服務器上運行的交互式R，須要輸入下面的語句，得到輸出圖形（圖形存儲於R的工做目錄下的Rplots.pdf文件中）

熱圖出來了，但有點不對勁，橫軸重疊一塊兒了。一個辦法是調整圖像的寬度，另外一個是旋轉橫軸標記

# theme: 是處理圖美觀的一個函數，能夠調整橫縱軸label的選擇、圖例的位置等
# 這裏選擇X軸標籤45度。
# hjust和vjust調整標籤的相對位置，具體見 
# 簡單說，hjust是水平的對齊方式，0爲左，1爲右，0.5居中，0-1之間能夠取任意值。vjust是垂直對齊方式，0底對齊，1爲頂對齊，0.5居中，0-1之間能夠取任意值
p <- p + theme(axis.text.x=element_text(angle=45, hjust=1, vjust=1))
p

設置想要的顏色

# 連續的數字，指定最小數值表明的顏色和最大數值賦予的顏色
# 注意fill和color的區別，fill是填充，color只針對邊緣
p <- p + scale_fill_gradient(low = "white", high = "red")
p

調整legend的位置

# postion能夠接受的值有 top, bottom, left, right, 和一個座標 c(0.05,0.8) (左上角，座標是相對於圖的左下角計算的）
p <- p + theme(legend.position="top")

調整背景和背景格線以及X軸、Y軸的標題(注意灰色的背景沒了)

p <- p + xlab("samples") + theme_bw() + theme(panel.grid.major = element_blank()) + theme(legend.key=element_blank())
p

合併以上命令，就獲得了下面這個看似複雜的繪圖命令

p <- ggplot(data_m, aes(x=variable,y=ID)) + xlab("samples") + theme_bw() + theme(panel.grid.major = element_blank()) + theme(legend.key=element_blank())  + theme(axis.text.x=element_text(angle=45,hjust=1, vjust=1)) + theme(legend.position="top") +  geom_tile(aes(fill=value)) + scale_fill_gradient(low = "white", high = "red")

圖形存儲

圖形出來了，就得考慮存儲了

# 能夠跟輸出文件不一樣的後綴，以得到不一樣的輸出格式
# colormode支持srgb （屏幕）和cmyk （打印，部分雜誌須要，看上去有點褪色的感受）格式
ggsave(p, filename="heatmap.pdf", width=10, height=15, units=c("cm"),colormodel="srgb")

至此，完成了簡單的heatmap的繪圖。但實際繪製時，常常會碰到因爲數值變化很大，致使顏色過於集中，使得圖的可讀性降低不少。所以須要對數據進行一些處理，具體的下次再說。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。