LDSC分析實戰

歡迎關注」生信修煉手冊」!python

經過對單個表型的GWAS分析結果進行連鎖不平衡迴歸分析,能夠鑑定是否存在混淆因素,同時估計遺傳力的大小;對於多個不一樣表型的GWAS分析結果進行分析,則能夠計算表型間的遺傳類似度。git

經過ldsc這款軟件,能夠方便地進行LDSC分析,源代碼保存在github上,網址以下github

https://github.com/bulik/ldscweb

採用了conda來確保軟件獨立的安裝環境,安裝過程以下算法

git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc

經過官網的wiki, 能夠快速的掌握其用法,基本用法以下數據庫

1.  計算ld score

根據原始的分型結果,計算LD score, 輸入數據爲plink的二進制格式,代碼以下瀏覽器

python ldsc.py --bfile 22 --l2 --ld-wind-cm 1 --out 22

bfile參數指定輸入的plink二進制文件,l2參數表示計算LD score值,ld-wind-cm參數指定計算LD的窗口大小,單位爲1cM, out參數指定輸出文件的前綴。微信

運行成功後,LD score值保存在後綴爲l2.ldscore.gz的文件中, 內容以下網絡

記錄了每個SNP位點的LD score值。值得注意的是,在計算LD score值時,每條染色體要分開計算。app

2. 進行LDSC分析

第一步咱們獲得了LD score值,進行LDSC分析,咱們還須要GWAS分析結果。該軟件制定了一種後綴爲sumstats的格式,用來存儲GWAS分析結果,要求有如下5列

  1. SNP

  2. N

  3. Z

  4. P

  5. A1

  6. A2


SNP表示SNP ID, 好比rs號;N表示樣本個數;Z表示SNP對錶型的效應值,beta, OR, z-score等等; P表示pvalue;A1表示突變的Allele, A2表示參照的Allele。

該軟件自帶了腳原本格式化GWAS結果,生成sumstats格式的文件,用法以下

python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test

格式轉換以後,就能夠進行LDSC分析了,用法以下

python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2

h2參數表示進行迴歸分析,估算遺傳力;ref-ld-chr參數指定ld score值對應的目錄,該目錄下每條染色體的LD score爲一個文件;w-ld-chr指定迴歸分析中每一個SNP位點的權重,由於算法對這個權重不敏感,和ref-ld-chr保持一致便可,out參數指定輸出文件的前綴。

在後綴爲log的文件中保存了迴歸分析的截距以及遺傳力,該軟件同時還能夠計算多個表型的遺傳類似度,更多用法請參考官方文檔。

·end·

—若是喜歡,快分享給你的朋友們吧—


往期精彩

  GWAS meta分析



   基因型填充



  CNV分析



  TCGA



  生存分析



  腫瘤數據庫



  腫瘤免疫和新抗原



  Hi-C數據分析



  chip_seq數據分析


  motif



  chip_seq數據庫


  18年文章目錄


掃描下方二維碼,關注咱們,解鎖更多精彩內容!


生物信息入門

只差這一個

公衆號



本文分享自微信公衆號 - 生信修煉手冊(shengxinxiulian)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索