這篇文章是對以前啊啊救救我,爲什麼個人QQ圖那麼飄(全基因組關聯分析)這篇文章的一個補坑。git
LD SCore除了查看顯著SNP位點對錶型是否爲基因多效性外,還額外補充了怎麼計算表型的遺傳度和遺傳相關性。github
git clone https://github.com/bulik/ldsc.git
less
cd ldsc
測試
conda env create --file environment.yml
ui
source activate ldsc
3d
若是安裝成功,輸入./ldsc.py -h
代碼會出現以下圖:
code
輸入./munge_sumstats.py -h
代碼會出現以下圖:
blog
summary.txt
爲關聯分析的summary數據,包含rs編號、染色體編號、位置、A1(效應等位基因)、A2(無效等位基因)、效應值(OR或BETA)、P值,以下圖所示:token
munge_sumstats.py --sumstats summary.txt --N 17115 --out scz --merge-alleles w_hm3.snplist
ci
這裏的N指的是研究的樣本數量;
scz是輸出的文件名;
w_hm3.snplist是被歸入分析的SNP,包含三列:包含rs編號、位置、A1(效應等位基因)、A2(無效等位基因)# 這一步無關緊要#
若是想把全部的SNP位點歸入分析,那麼採用這個命令:
munge_sumstats.py --sumstats summary.txt --N 17115 --out scz
這一步會生成scz.sumstats.gz的文件;
for q in $(seq 1 22); do plink --bfile file --chr $q --make-bed --out chr$q done
這個步驟會生成22個plink格式文件(bed,bim,fam),每個文件表明一條染色體。
for q in $(seq 1 22); do ldsc.py --bfile chr$q --l2 --ld-wind-cm 5 --yes-really --out chr/$q done
生成的文件以下所示:
ldsc.py --h2 scz.sumstats.gz --ref-ld-chr chr/ --w-ld-chr chr/ --out scz_h2
scz.sumstats.gz爲步驟5生成的文件
chr/ 爲步驟7生成的LD文件路徑
scz_h2爲迴歸截距和遺傳度的輸出文件
less scz_h2.log
輸出文件最底部:
Intercept: 1.0252 (0.0075)
截距爲1.0252
關於迴歸截距怎麼看,請看以前發過的推文:啊啊救救我,爲什麼個人QQ圖那麼飄(全基因組關聯分析)
less scz_h2.log
輸出文件最底部:
Total Observed scale h2: 0.7153 (0.0386)
遺傳度爲0.7153
ldsc.py --rg trait1.sumstats.gz,trait2.sumstats.gz --ref-ld-chr chr/ --w-ld-chr chr/ --out trait1_trait2
trait1.sumstats.gz爲表型1的ldsc格式文件;
trait2.sumstats.gz爲表型2的ldsc格式文件;
chr/ 爲步驟7生成的LD文件路徑
trait1_trait2爲表型1和表型2的遺傳相關性輸出文件;
less trait1_trait2.log
輸出文件最底部:
Genetic Correlation: 0.6561 (0.0605)
表型1和表型2的遺傳相關性爲0.6561