Tidyverse|數據列的分分合合，愛恨情仇

時間 2020-04-29

標籤 tidyverse 數據分合愛恨简体版

原文原文鏈接

Tidyverse|數據列的分分合合，愛恨情仇

本文首發於「生信補給站」Tidyverse|數據列的分分合合，一分多，多合一web

TCGA數據挖掘可作不少分析，前期數據「清洗」費時費力但很須要。函數

好比基因列爲ID的須要轉爲常見的symbol，基因列爲symbol|ID的就須要拆開了！spa

excel分列能夠解決，可是表達量數據較大，且excel容易產生「數據變形」。3d

一，載入數據，R包

使用TCGA下載的數據，使用如下幾行幾列，做爲示例excel

library(tidyverse)
data <- read.csv("separate.csv",header = TRUE, check.name = FALSE)
head(data)
            ID          ID2 TCGA-18-3406-01A-01R-0980-07 TCGA-18-3407-01A-01R-0980-07
1       A1BG|1       A1BG/1                     741.6929                      46.7127
2   A1CF|29974   A1CF/29974                       0.0000                       0.4757
3  A2BP1|54715  A2BP1/54715                       0.0000                       0.0000
4  A2LD1|87769  A2LD1/87769                     170.2362                     118.4063
5 A2ML1|144568 A2ML1/144568                     128.3465                    1413.4158
6        A2M|2        A2M/2                    9074.6772                   11310.1713

能夠看到第一列的ID，和人爲添加的ID2，名稱不規則，咱們只須要前面的基因名。code

二，合久可分 - 一列拆多列

使用separate函數，將「指定」分隔符出現的位置一列分紅多列blog

2.1 默認，不指定分隔符

data %>% 
 separate(ID, into = c("Gene", "IDnum")) %>% head()

2.2 指定分隔符且保留原始列

data %>% 
 separate(ID2, into = c("Gene2", "IDnum2"),sep = "/",remove = FALSE) %>% 
 head()

2.3 特殊字符的指定方式

data %>% 
 separate(ID, into = c("Gene1", "IDnum1"),sep = "l",remove = FALSE) %>% 
 head()

按照一樣的方式，想把"|"分隔的ID拆分，發現報錯。？黑人問號臉ip

有問題能夠先?separate或者help(separate)查詢幫助函數，"|"爲特殊字符，能夠使用"[|]"括起來或者"\\|"，都可：rem

data %>% 
 separate(ID, into = c("Gene1", "IDnum1"),sep = "[|]",remove = FALSE) %>% head()
#或者
data2 <- data %>%
 separate(ID, into = c("Gene1", "IDnum1"),sep = "\\|",remove = FALSE)

2.4，按照第幾個字符拆

根據第幾個字符拆分，適合數據規整的，，，get

能夠用來將TCGA中的sampleID轉爲常見的16位，須要先轉置

#
data2 %>% select(Gene1,contains("TCGA")) %>% #選擇指定列
 column_to_rownames(var = "Gene1") %>%  # 將Gene1列轉爲rownames
 t() %>% as.data.frame() %>% #數據轉置，樣本爲行名
 rownames_to_column(var="Sample") %>%  #行名變爲數據中的列
 separate(Sample, into = c("Sample", "bar"),sep = 16) %>%  #按照規則取前16個字符
 select(-bar) #去掉分割後不須要的bar列

可參考：盤一盤Tidyverse| 篩行選列之select，玩轉列操做

Tips：

1）能夠先默認試一下，如2.1所示；
2）使用R的幫助，必定！

三，分久必合-多列合併一列

使用unite函數，可將多列按照「指定」分隔符合併爲一列

data %>%
unite(ID_new, ID:ID2, sep = "_") %>% head()

◆ ◆ ◆ ◆ ◆

精心整理（含圖版）|你要的全拿走！有備無患

1. Vim愛恨情仇系列
2. equals()與「==」的愛恨情仇
3. ubuntu9.10的愛恨情仇
4. DNS的愛恨情仇
5. Maven的愛恨情仇
6. Spring框架愛恨情仇！！
7. 指針與數組的「愛恨情仇」
8. String、StringBuilder、StringBuffer的愛恨情仇
9. 我和單例的愛恨情仇
10. VMTK與3Dlicer的愛恨情仇
更多相關文章...
• SQLite 分離數據庫 - SQLite教程
• Redis和數據庫的結合 - Redis教程
• Flink 數據傳輸及反壓詳解
• Git五分鐘教程

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Tidyverse|數據列的分分合合，愛恨情仇

Tidyverse|數據列的分分合合，愛恨情仇

一， 載入數據，R包

二，合久可分 - 一列拆多列

2.1 默認，不指定分隔符

2.2 指定分隔符且保留原始列

2.3 特殊字符的指定方式

2.4，按照第幾個字符拆

可參考：盤一盤Tidyverse| 篩行選列之select，玩轉列操做

Tips：

三，分久必合-多列合併一列

一，載入數據，R包