LDSC分析實戰 - JavaShuo

歡迎關注」生信修煉手冊」!python

經過對單個表型的GWAS分析結果進行連鎖不平衡迴歸分析，能夠鑑定是否存在混淆因素，同時估計遺傳力的大小；對於多個不一樣表型的GWAS分析結果進行分析，則能夠計算表型間的遺傳類似度。git

經過ldsc這款軟件，能夠方便地進行LDSC分析，源代碼保存在github上，網址以下github

https://github.com/bulik/ldscweb

採用了conda來確保軟件獨立的安裝環境，安裝過程以下算法

git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc

經過官網的wiki, 能夠快速的掌握其用法，基本用法以下數據庫

1. 計算ld score

根據原始的分型結果，計算LD score, 輸入數據爲plink的二進制格式，代碼以下瀏覽器

python ldsc.py --bfile 22 --l2 --ld-wind-cm 1 --out 22

bfile參數指定輸入的plink二進制文件，l2參數表示計算LD score值，ld-wind-cm參數指定計算LD的窗口大小，單位爲1cM, out參數指定輸出文件的前綴。微信

運行成功後，LD score值保存在後綴爲l2.ldscore.gz的文件中, 內容以下網絡

記錄了每個SNP位點的LD score值。值得注意的是，在計算LD score值時，每條染色體要分開計算。app

2. 進行LDSC分析

第一步咱們獲得了LD score值，進行LDSC分析，咱們還須要GWAS分析結果。該軟件制定了一種後綴爲sumstats的格式，用來存儲GWAS分析結果，要求有如下5列

SNP表示SNP ID, 好比rs號;N表示樣本個數;Z表示SNP對錶型的效應值，beta, OR, z-score等等; P表示pvalue;A1表示突變的Allele, A2表示參照的Allele。

該軟件自帶了腳原本格式化GWAS結果，生成sumstats格式的文件，用法以下

python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test

格式轉換以後，就能夠進行LDSC分析了，用法以下

python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2

h2參數表示進行迴歸分析，估算遺傳力;ref-ld-chr參數指定ld score值對應的目錄，該目錄下每條染色體的LD score爲一個文件；w-ld-chr指定迴歸分析中每一個SNP位點的權重，由於算法對這個權重不敏感，和ref-ld-chr保持一致便可，out參數指定輸出文件的前綴。

在後綴爲log的文件中保存了迴歸分析的截距以及遺傳力，該軟件同時還能夠計算多個表型的遺傳類似度，更多用法請參考官方文檔。

·end·

—若是喜歡，快分享給你的朋友們吧—

往期精彩

GWAS meta分析

基因型填充

CNV分析

TCGA

生存分析

腫瘤數據庫

腫瘤免疫和新抗原

Hi-C數據分析

chip_seq數據分析

motif

chip_seq數據庫

18年文章目錄

2018年推文合集

掃描下方二維碼，關注咱們，解鎖更多精彩內容！

生物信息入門

只差這一個

公衆號

本文分享自微信公衆號 - 生信修煉手冊（shengxinxiulian）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。