歡迎關注」生信修煉手冊」!python
經過對單個表型的GWAS分析結果進行連鎖不平衡迴歸分析,能夠鑑定是否存在混淆因素,同時估計遺傳力的大小;對於多個不一樣表型的GWAS分析結果進行分析,則能夠計算表型間的遺傳類似度。git
經過ldsc
這款軟件,能夠方便地進行LDSC分析,源代碼保存在github上,網址以下github
https://github.com/bulik/ldscweb
採用了conda
來確保軟件獨立的安裝環境,安裝過程以下算法
git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc
經過官網的wiki
, 能夠快速的掌握其用法,基本用法以下數據庫
1. 計算ld score
根據原始的分型結果,計算LD score, 輸入數據爲plink的二進制格式,代碼以下瀏覽器
python ldsc.py --bfile 22 --l2 --ld-wind-cm 1 --out 22
bfile
參數指定輸入的plink二進制文件,l2
參數表示計算LD score值,ld-wind-cm
參數指定計算LD的窗口大小,單位爲1cM, out
參數指定輸出文件的前綴。微信
運行成功後,LD score值保存在後綴爲l2.ldscore.gz
的文件中, 內容以下網絡
記錄了每個SNP位點的LD score值。值得注意的是,在計算LD score值時,每條染色體要分開計算。app
2. 進行LDSC分析
第一步咱們獲得了LD score值,進行LDSC分析,咱們還須要GWAS分析結果。該軟件制定了一種後綴爲sumstats
的格式,用來存儲GWAS分析結果,要求有如下5列
SNP
N
Z
P
A1
A2
SNP
表示SNP ID, 好比rs號;N
表示樣本個數;Z
表示SNP對錶型的效應值,beta, OR, z-score等等; P
表示pvalue;A1
表示突變的Allele, A2
表示參照的Allele。
該軟件自帶了腳原本格式化GWAS結果,生成sumstats
格式的文件,用法以下
python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test
格式轉換以後,就能夠進行LDSC分析了,用法以下
python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2
h2
參數表示進行迴歸分析,估算遺傳力;ref-ld-chr
參數指定ld score值對應的目錄,該目錄下每條染色體的LD score爲一個文件;w-ld-chr
指定迴歸分析中每一個SNP位點的權重,由於算法對這個權重不敏感,和ref-ld-chr
保持一致便可,out
參數指定輸出文件的前綴。
在後綴爲log
的文件中保存了迴歸分析的截距以及遺傳力,該軟件同時還能夠計算多個表型的遺傳類似度,更多用法請參考官方文檔。
·end·
—若是喜歡,快分享給你的朋友們吧—
往期精彩
3DIV:染色質空間互做數據庫
掃描下方二維碼,關注咱們,解鎖更多精彩內容!
![](http://static.javashuo.com/static/loading.gif)
生物信息入門
只差這一個
公衆號
本文分享自微信公衆號 - 生信修煉手冊(shengxinxiulian)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。