DEPICT實現基因優化（gene prioritization）、gene set富集分析（geneset enrichment）、組織富集分析（tissue enrichment）

時間 2019-11-06

標籤 depict 實現基因優化 gene prioritization set 分析 geneset enrichment 組織 tissue 简体版

原文原文鏈接

全基因組關聯分析除了找到顯著的關聯位點，咱們還能夠作基因優化、geneset富集分析、組織富集分析，下面具體講一講怎麼利用GWAS的summary數據作這個分析。java

summary數據就是關聯分析的結果文件python

1 軟件安裝前請確保須要知足的系統環境

1.1 支持Mac OS X 或者 UNIX，不支持windows系統

1.2 Java SE 6（或者更高），沒有安裝Java請自行安裝

1.3 須要PIP

怎麼肯定系統有沒有安裝PIP呢，輸入命令which pip,若是沒有路徑彈出，說明沒有PIP，須要安裝windows

1.4 須要Python依賴包

pip install intervaltreepython2.7

或者測試

conda install -c conda-forge intervaltree優化

1.5 須要Pandas包（0.15.2或者以上版本）

pip install pandasunix

1.6 PLINK(1.9 版本)

1.7 python(2.7 版本)

2 下載、安裝

wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gzcode

tar -zxvf DEPICT_v1_rel194.tar.gzblog

3 測試depict可否運行

cd DEPICTip

./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg

若是這一步沒有報錯，說明環境配置沒有問題，能夠開始分析本身的數據啦

4 準備一份新的cfg文件

拷貝yourtrait.cfg文件

cp ldl_teslovich_nature2010.cfg yourtrait.cfg

編輯yourtrait.cfg文件

vi yourtrait.cfg

vi進去後，yourtrait.cfg文件有幾處須要修改

4.1 修改summary文件，這個summary文件即爲你想分析的表型關聯分析文件，在這裏，假定叫作yourtrait.glm.linear，注意前面要加上絕對路徑

gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear

4.2 修改輸出文件名，文件名按你喜歡修改，這裏依舊假定命名爲yourtrait

label_for_output_files: yourtrait

4.3 修改P值名稱，若是yourtrait.glm.linear的P值用P表示的話

pvalue_col_name: P

4.4 修改染色體名稱，若是yourtrait.glm.linear的染色體用Chr表示的話

chr_col_name: Chr

4.4 修改位置名稱，若是yourtrait.glm.linear的位置用Pos表示的話

pos_col_name: Pos

4.5 添加PLINK軟件的絕對路徑，PLINK在你係統的哪一個位置就寫上哪裏

plink_executable: /your/path/to/plink/plink

4.6 添加plink格式的genotype數據

genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype

修改好以上數據後，保存退出文件:wq

5 跑數據

./src/python/depict.py yourtrait.cfg

6 生成文件

生成的文件分別爲loci.txt，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即爲咱們感興趣的基因優化，geneset富集分析，組織富集分析