Tidyverse| XX_join :多個數據表(文件)之間的各類鏈接

本文首發於公衆號:「生信補給站」 Tidyverse| XX_join :多個數據表(文件)之間的各類鏈接函數

前面分享了單個文件中的select列filter行列拆分等,實際中常常是多個數據表,綜合使用才能回答你所感興趣的問題。 atom

本次簡單的介紹多個表(文件)鏈接的方法。spa

一 載入數據,R包

library(tidyverse)
x <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    3, "x3"
)
y <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2",
    4, "y3"
)

 

二 合併數據

向數據框中加入新變量,新變量的值是另外一個數據框中的匹配觀測。 .net

 

1 鏈接方式

1) 內鏈接 inner_join

內鏈接是最簡單的一種鏈接,只要兩個觀測的鍵是相等的,便可匹配。3d

img

 

註釋:匹配在實際的鏈接操做中是用圓點表示的。圓點的數量 = 匹配的數量 = 結果中行的數量。下同code

x %>% 
 inner_join(y, by = "key")
# A tibble: 2 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2

內鏈接最重要的性質是,沒有匹配的行不會包含在結果中。容易丟失觀測,慎用。blog

 

2) 外鏈接

外鏈接則保留至少存在於一個表中的觀測。外鏈接有 3 種類型: • 左鏈接 left_join:保留 x 中的全部觀測。 • 右鏈接 right_join:保留 y 中的全部觀測 • 全鏈接 full_join:保留 x 和 y 中的全部觀測。 get

img

x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     4 <NA>  y3
x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
4     4 <NA>  y3

 

 

2 重複鍵

以上均假設鍵具備惟一性,但狀況並不是老是如此。string

若是x中的key變量,在y中有多個一樣的key,那麼全部的結合可能都會羅列出來

img

x1 <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    2, "x3",
    1, "x4"
)
y1 <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     2 x3    y2  
4     1 x4    y1

 

3 定義鏈接鍵

1) 默認值 by = NULLit

使用存在於兩個表中的全部變量,這種方式稱爲天然鏈接。

left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 

2) 定義匹配鍵 by = c("a" = "b")

匹配 x 表中的 a 變量和 y 表中的 b 變量,輸出結果中使用的是 x 表中的變量。

y_1 <- tribble(
 ~key2, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 

3) 多個匹配鍵

x2 <- tribble(
 ~key,~key1, ~val_x,
    1, 2018,"x1",
    2, 2019,"x2",
    3, 2019,"x3"
)
y2 <- tribble(
 ~key, ~key1,~val_y,
    1, 2018,"y1",
    2, 2018,"y2",
    4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
   key  key1 val_x val_y
 <dbl> <dbl> <chr> <chr>
1     1  2018 x1    y1  

 

三 篩選鏈接

篩選鏈接匹配觀測的方式與合併鏈接相同,但前者影響的是觀測,而不是變量。篩選鏈接 有兩種類型。

semi_join函數
  • 保留 x 表中與 y 表中的觀測相匹配的全部觀測

img

semi_join(x, y, by = "key")
# A tibble: 2 x 2
   key val_x
 <dbl> <chr>
1     1 x1  
2     2 x2

 

anti_join函數
  • 丟棄 x 表中與 y 表中的觀測相匹配的全部觀測。

img

 

anti_join(x, y, by = "key")
# A tibble: 1 x 2
   key val_x
 <dbl> <chr>
1     3 x3

 

參考資料:

https://r4ds.had.co.nz/

《R數據科學》

 

【以爲不錯,右下角點個「在看」,期待您的轉發,謝謝!】

相關文章
相關標籤/搜索