DEPICT實現基因優化(gene prioritization)、gene set富集分析(geneset enrichment)、組織富集分析(tissue enrichment)

全基因組關聯分析除了找到顯著的關聯位點,咱們還能夠作基因優化、geneset富集分析、組織富集分析,下面具體講一講怎麼利用GWAS的summary數據作這個分析。java

summary數據就是關聯分析的結果文件python

1 軟件安裝前請確保須要知足的系統環境

1.1 支持Mac OS X 或者 UNIX, 不支持windows系統
1.2 Java SE 6(或者更高),沒有安裝Java請自行安裝
1.3 須要PIP

怎麼肯定系統有沒有安裝PIP呢,輸入命令which pip,若是沒有路徑彈出,說明沒有PIP,須要安裝windows

1.4 須要Python依賴包

pip install intervaltreepython2.7

或者測試

conda install -c conda-forge intervaltree優化

1.5 須要Pandas包 (0.15.2或者以上版本)

pip install pandasunix

1.6 PLINK(1.9 版本)
1.7 python(2.7 版本)

2 下載、安裝

wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gzcode

tar -zxvf DEPICT_v1_rel194.tar.gzblog

3 測試depict可否運行

cd DEPICTip

./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg

若是這一步沒有報錯,說明環境配置沒有問題,能夠開始分析本身的數據啦

4 準備一份新的cfg文件

拷貝yourtrait.cfg文件

cp ldl_teslovich_nature2010.cfg yourtrait.cfg

編輯yourtrait.cfg文件

vi yourtrait.cfg

vi進去後,yourtrait.cfg文件有幾處須要修改

4.1 修改summary文件,這個summary文件即爲你想分析的表型關聯分析文件,在這裏,假定叫作yourtrait.glm.linear,注意前面要加上絕對路徑

gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear

4.2 修改輸出文件名,文件名按你喜歡修改,這裏依舊假定命名爲yourtrait

label_for_output_files: yourtrait

4.3 修改P值名稱,若是yourtrait.glm.linear的P值用P表示的話

pvalue_col_name: P

4.4 修改染色體名稱,若是yourtrait.glm.linear的染色體用Chr表示的話

chr_col_name: Chr

4.4 修改位置名稱,若是yourtrait.glm.linear的位置用Pos表示的話

pos_col_name: Pos

4.5 添加PLINK軟件的絕對路徑,PLINK在你係統的哪一個位置就寫上哪裏

plink_executable: /your/path/to/plink/plink

4.6 添加plink格式的genotype數據

genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype

修改好以上數據後,保存退出文件:wq

5 跑數據

./src/python/depict.py yourtrait.cfg

6 生成文件

生成的文件分別爲loci.txt,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即爲咱們感興趣的基因優化,geneset富集分析,組織富集分析

7 畫圖

Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich

nHjH5q.png

相關文章
相關標籤/搜索