polygenic risk score:多基因風險評分

歡迎關注」生信修煉手冊」!web

針對複雜疾病，經過GWAS研究能夠識別到大量的疾病易感位點，然而這些位點絕大多數都屬於微效位點，單個或者少數幾個位點對疾病的效應較弱，沒法準確的預測疾病。爲了更好的研究患病風險，咱們須要綜合多基因位點的信息。在這個基礎上，提出了多基因風險評分的概念。算法

多基因風險評分，對應的英文以下數據庫

polygenic risk score瀏覽器

簡稱PRS, 計算公式以下微信

其中i表示SNP位點，m表示SNP位點的總數，β表示該SNP位點對於疾病的效應，j表示該SNP位點的基因型，分別用0,1,2表徵沒有突變，雜合突變和純合突變，ω表示每種基因型的頻率。從公式能夠看出，PRS值是全部疾病相關位點效應值的總和。在計算PRS時，有如下兩個關鍵步驟網絡

SNP位點的選擇，採用GWAS分析的p值做爲閾值來篩選SNP位點，一般會有多個閾值app
SNP位點權重的計算，經常使用OR值或者回歸分析的beta值做爲SNP位點對疾病效應的權重less

PRS結合了全部疾病關聯位點的效應值，更加適合預測個體的患病風險，在實際分析中，計算PRS的流程以下編輯器

首先將數據集分爲兩個部分，base data和target data。其中base data提供了GWAS分析的結果，如p值，beta或者OR值等，用於構建模型；而target data提供了部分樣本的基因型和表型數據，用基於base data構建的模型來預測這部分樣本的患病風險。

在建模以前，須要對數據進行質控，能夠參考GWAS的質控標準。同時還須要注意，兩個數據集的樣本必須是獨立的，不存在重複樣本，即一個樣本不能同時出如今base data和target data中。接下來計算PRS, 須要考慮連鎖不平衡的調整，beta收縮，pvalue閾值選取等因素，而後計算PRS值，並進行PRS和表型之間的關聯分析，最後使用兩個數據集進行交叉驗證。工具

能夠進行PRS分析的軟件有不少，PRSice是使用的最爲普遍的一款。在後續會詳細介紹其用法。

·end·

—若是喜歡，快分享給你的朋友們吧—

往期精彩

GWAS meta分析

基因型填充

CNV分析

TCGA

生存分析

腫瘤數據庫

腫瘤免疫和新抗原

Hi-C數據分析

chip_seq數據分析

motif

chip_seq數據庫

18年文章目錄

2018年推文合集

掃描下方二維碼，關注咱們，解鎖更多精彩內容！

生物信息入門

只差這一個

公衆號

本文分享自微信公衆號 - 生信修煉手冊（shengxinxiulian）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。