GWAS羣體分層 (Population stratification):利用plink對基因型進行PCA

1、爲何要作祖先成分的PCA?bash

GWAS研究時常常碰到羣體分層的現象,即該羣體的祖先來源多樣性,咱們知道的,不一樣羣體SNP頻率不同,致使後面作關聯分析的時候可能出現假陽性位點(不必定是顯著信號位點與該表型有關,多是與羣體SNP頻率差別有關),所以咱們須要在關聯分析前對該羣體作PCA分析,隨後將PCA結果做爲協變量加入關聯分析中。spa

 

2、怎麼作PCA?blog

簡單一個「--pca」參數便可class

plink --bfile myfile --pca 10 --out myfile_pca #這裏只取前10個PCA結果,若是想取其餘數值,請自行設置

  

跑完之後,會生成三個文件,分別是myfile_pca.eigenval,myfile_pca.eigenvec,myfile_pca.log。變量

其中,myfile_pca.eigenvec即爲咱們所需的PCA文件,大概長得以下:file

FID_1 IID_1 0.00126761 0.00331304 -0.0105174 0.000679466 -0.0179362 0.00672081 0.000979499 -0.00752795 0.00626333 -0.00849531di

FID_1 IID_2 -0.000272769 -0.00328075 -0.00380584 -0.00787082 0.00896386 -0.00325664 0.00241414 0.00612508 -0.000788917 -0.00188887文件

 

3、生成的PCA結果怎麼用?co

這個至關簡單,直接把這堆數值加入covar文件中,只有控制了這些祖先成分的變量,才能最大限度的找到真實的信號。background

相關文章
相關標籤/搜索