polygenic risk score:多基因風險評分

歡迎關注」生信修煉手冊」!web

針對複雜疾病,經過GWAS研究能夠識別到大量的疾病易感位點,然而這些位點絕大多數都屬於微效位點,單個或者少數幾個位點對疾病的效應較弱,沒法準確的預測疾病。爲了更好的研究患病風險,咱們須要綜合多基因位點的信息。在這個基礎上,提出了多基因風險評分的概念。算法

多基因風險評分,對應的英文以下數據庫

polygenic risk score瀏覽器

簡稱PRS, 計算公式以下微信

其中i表示SNP位點,m表示SNP位點的總數,β表示該SNP位點對於疾病的效應,j表示該SNP位點的基因型,分別用0,1,2表徵沒有突變,雜合突變和純合突變,ω表示每種基因型的頻率。從公式能夠看出,PRS值是全部疾病相關位點效應值的總和。在計算PRS時,有如下兩個關鍵步驟網絡

  1. SNP位點的選擇,採用GWAS分析的p值做爲閾值來篩選SNP位點,一般會有多個閾值app

  2. SNP位點權重的計算,經常使用OR值或者回歸分析的beta值做爲SNP位點對疾病效應的權重less


PRS結合了全部疾病關聯位點的效應值,更加適合預測個體的患病風險,在實際分析中,計算PRS的流程以下編輯器

首先將數據集分爲兩個部分,base data和target data。其中base data提供了GWAS分析的結果,如p值,beta或者OR值等,用於構建模型;而target data提供了部分樣本的基因型和表型數據,用基於base data構建的模型來預測這部分樣本的患病風險。

在建模以前,須要對數據進行質控,能夠參考GWAS的質控標準。同時還須要注意,兩個數據集的樣本必須是獨立的,不存在重複樣本,即一個樣本不能同時出如今base data和target data中。接下來計算PRS, 須要考慮連鎖不平衡的調整,beta收縮,pvalue閾值選取等因素,而後計算PRS值,並進行PRS和表型之間的關聯分析,最後使用兩個數據集進行交叉驗證。
工具

能夠進行PRS分析的軟件有不少,PRSice是使用的最爲普遍的一款。在後續會詳細介紹其用法。

·end·

—若是喜歡,快分享給你的朋友們吧—



往期精彩

  GWAS meta分析



   基因型填充



  CNV分析



  TCGA



  生存分析



  腫瘤數據庫



  腫瘤免疫和新抗原



  Hi-C數據分析



  chip_seq數據分析


  motif



  chip_seq數據庫


  18年文章目錄


掃描下方二維碼,關注咱們,解鎖更多精彩內容!


生物信息入門

只差這一個

公衆號





本文分享自微信公衆號 - 生信修煉手冊(shengxinxiulian)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索