歡迎關注」生信修煉手冊」!web
針對複雜疾病,經過GWAS研究能夠識別到大量的疾病易感位點,然而這些位點絕大多數都屬於微效位點,單個或者少數幾個位點對疾病的效應較弱,沒法準確的預測疾病。爲了更好的研究患病風險,咱們須要綜合多基因位點的信息。在這個基礎上,提出了多基因風險評分的概念。算法
多基因風險評分,對應的英文以下數據庫
polygenic risk score瀏覽器
簡稱PRS, 計算公式以下微信
其中i
表示SNP位點,m
表示SNP位點的總數,β
表示該SNP位點對於疾病的效應,j
表示該SNP位點的基因型,分別用0,1,2表徵沒有突變,雜合突變和純合突變,ω
表示每種基因型的頻率。從公式能夠看出,PRS值是全部疾病相關位點效應值的總和。在計算PRS時,有如下兩個關鍵步驟網絡
SNP位點的選擇,採用GWAS分析的p值做爲閾值來篩選SNP位點,一般會有多個閾值app
SNP位點權重的計算,經常使用OR值或者回歸分析的beta值做爲SNP位點對疾病效應的權重less
PRS結合了全部疾病關聯位點的效應值,更加適合預測個體的患病風險,在實際分析中,計算PRS的流程以下編輯器
首先將數據集分爲兩個部分,base data和target data。其中base data提供了GWAS分析的結果,如p值,beta或者OR值等,用於構建模型;而target data提供了部分樣本的基因型和表型數據,用基於base data構建的模型來預測這部分樣本的患病風險。
在建模以前,須要對數據進行質控,能夠參考GWAS的質控標準。同時還須要注意,兩個數據集的樣本必須是獨立的,不存在重複樣本,即一個樣本不能同時出如今base data和target data中。接下來計算PRS, 須要考慮連鎖不平衡的調整,beta收縮,pvalue閾值選取等因素,而後計算PRS值,並進行PRS和表型之間的關聯分析,最後使用兩個數據集進行交叉驗證。工具
能夠進行PRS分析的軟件有不少,PRSice是使用的最爲普遍的一款。在後續會詳細介紹其用法。
·end·
—若是喜歡,快分享給你的朋友們吧—
往期精彩
3DIV:染色質空間互做數據庫
掃描下方二維碼,關注咱們,解鎖更多精彩內容!
生物信息入門
只差這一個
公衆號
本文分享自微信公衆號 - 生信修煉手冊(shengxinxiulian)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。