有相關性就有因果關係嗎,教你玩轉孟德爾隨機化分析(mendelian randomization )

流行病學研究常見的分析就是相關性分析了。git

相關性分析某種程度上能夠爲咱們提供一些研究思路,好比缺少元素A與某種癌症相關,那麼咱們能夠經過補充元素A來減小患癌率。這個結論的大前提是缺少元素A會致使這種癌症,也就是說元素A和癌症有因果關係。github

但實際上,元素A和癌症有相關性,不表明他們之間就有因果關係。也有多是患癌症的人同時有其餘的併發症,這種併發症會致使元素A缺少。微信

再好比,研究代表,大胸女生與不愛運動相關。那麼,究竟是由於胸大的女性不愛運動,仍是由於不愛運動致使胸大(肥胖)。併發

若是不作其餘分析,光看這個相關性,咱們是沒法得知這兩個表徵之間是否有真實的因果關係。3d

爲了闡明這些表徵是否有因果關係,咱們通常在研究中考慮加入孟德爾隨機化分析。rest

1 孟德爾隨機化分析的思想

仍是前面的例子,假定咱們認爲大胸的人(因)不肯意運動(果)。code

那咱們的研究思路就是找到與大胸有關的顯著遺傳位點,再分析這些遺傳位點是否也與不愛運動相關。blog

若是與大胸相關的遺傳位點同時也與不愛運動相關,那麼咱們就會認爲大胸的人就是不愛運動。ci

反過來,若是與大胸相關的遺傳位點與不愛運動沒有關係,那麼咱們認爲大胸跟不愛運動是沒有因果關係的,他們之間存在相關性多是由其餘的因素致使的。get

2 爲何孟德爾隨機化研究採用遺傳位點做爲分析媒介

緣由很簡單,遺傳位點是咱們出生就決定了的,後期不會隨文化、經濟等因素改變。

若是咱們發現位點A與大胸有相關性,那麼毫無疑問,是位點A影響了胸部大小。

反過來講就不成立了,由於胸大,因此遺傳位點會變爲A,這樣的結論聽起來就很怪異。

3 孟德爾隨機化研究計算原理

3.1 找到影響大胸的SNP位點

這個目前最流行的方法就是全基因組關聯分析了。

經過獲取不一樣個體的罩杯大小(表型)和他們的遺傳位點(基因型),作全基因組關聯分析

3.2 將影響大胸的顯著信號位點做爲後續分析的位點

咱們對顯著信號位點的定義是P值<5*10-8

3.3 計算大胸顯著信號位點與不愛運動的關係

一樣能夠用全基因組關聯分析的方法

隨後得到大胸顯著信號位點與不愛運動的效應值(BETA)或者風險值(OR)

3.4 畫顯著信號位點分別在大胸和不愛運動的效應值散點圖,散點圖的斜率表明大胸對不愛運動這個行爲的影響大小(causal effect)

eSFQaj.png

4 怎麼作孟德爾隨機化分析

下面舉一個簡單的小例子。

4.1 安裝R包

install.packages("devtools")

library(devtools)

install_github("MRCIEU/TwoSampleMR")

4.2 導入大胸(exposure)的顯著信號位點

library(TwoSampleMR)

bmi_file <- system.file("data/bmi.txt", package="TwoSampleMR")

exposure_dat <- read_exposure_data(bmi_file)

大胸顯著信號位點數據格式以下:

epI9sK.png

4.3 導入顯著信號位點與不愛運動的相關性數據

outcome_dat <- read_outcome_data(snps = exposure_dat$SNP,filename = "F:/download/test.csv", sep = ",",snp_col = "SNP",beta_col = "beta",se_col = "se",effect_allele_col = "effect_allele",other_allele_col = "other_allele",eaf_col = "eaf",samplesize_col = "samplesize")

不愛運動信號位點數據格式test.csv以下:

epIhwD.png

導入顯著信號位點與不愛運動的相關性數據​outcome_dat以下:

ep7pMq.png

4.4 統一大胸和不愛運動的效應值方向

dat <- harmonise_data(exposure_dat, outcome_dat)

4.5 孟德爾隨機化分析

res <- mr(dat)

epRbQO.png

結果不顯著,說明二者有相關性,可是沒有因果關係。

4.6 畫散點圖

p1 <- mr_scatter_plot(res, dat)

p1[[1]]

epWi6S.png

4.7 補充其餘分析

4.7.1 Heterogeneity statistics

mr_heterogeneity(dat)

4.7.2 Horizontal pleiotropy

mr_pleiotropy_test(dat)

4.7.3 Single SNP analysis

res_single <- mr_singlesnp(dat)

4.7.4 Leave-one-out analysis

res_loo <- mr_leaveoneout(dat)

4.7.5 Forest plot

res_single <- mr_singlesnp(dat)

p2 <- mr_forest_plot(res_single)

p2[[1]]

epfEjO.png

4.7.6 Leave-one-out plot

res_loo <- mr_leaveoneout(dat)

p3 <- mr_leaveoneout_plot(res_loo)

p3[[1]]

epfyKU.png

4.7.7 Funnel plot

res_single <- mr_singlesnp(dat)

p4 <- mr_funnel_plot(res_single)

p4[[1]]

epf7rD.png

關於孟德爾隨機化的研究就講到這,更多詳情內容請看:https://mrcieu.github.io/TwoSampleMR/。 另外,本文提到的大胸與運動的關係,不是我瞎想出來的,真有人作過研究,對這篇文章感興趣的,請到微信公衆號「bio生物信息」後臺回覆「大胸」 :D

相關文章
相關標籤/搜索