參考基因組及註釋文件下載

從三大核酸數據庫NCBI、Ensembl、UCSC 下載參考序列及註釋文件html

0.人類基因組版本對應關係數據庫

NCBI Ensembl UCSC
GRCh36 release_52 hg18
GRCh37 release_59/61/64/68/69/75 hg19
GRCh38 release_76/77/78/80/81/82 hg38

 1.NCBIapi

人類基因組spa

GRCh38下載(默認):3d

ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/orm

GRCh37下載:cdn

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.1/htm

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.2/blog

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/ip

GRCh36及其餘版本下載:

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

經常使用的GRCh37基因組大小壓縮約900Mb,解壓後約3G。人類的註釋文件一直在更新,默認爲GFF3格式。gff和gtf格式文件關係及相互轉換見:https://www.jianshu.com/p/48b5a0972301

也能夠經過NCBI的genome數據庫下載,默認是GRCh38,若要下載其餘版本,直接檢索關鍵詞。

如輸入GRCh37或hg19:

 

參考序列和GFF文件都可今後處下載,其餘物種相似。

 

2.Ensembl

同NCBI同樣,可經過網頁檢索下載,也可經過ftp直接下載。

(1)官網下載:

 

 

或者經過進入download下載。

 

微生物或原生生物的下載,如幽門螺桿菌:

或者直接從這裏進入:http://bacteria.ensembl.org/index.html

 http://bacteria.ensembl.org/species.html

 

 

(2)ftp下載:

ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/

更改release後的數字下載相應的版本,包括dna、cdna、cds等序列信息,release-75是目前最新的hg19版本。

註釋文件下載(默認gtf,大部分比對軟件輸入格式):

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/

 

3.UCSC

參考序列下載很簡單(尤爲是人)

進入官網:http://hgdownload.cse.ucsc.edu/downloads.html,下載對應的各個版本

也可進入http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz,修改中間數字下載不一樣版本

可是註釋文件下載稍微有點麻煩,須要設置一系列參數來生成:

http://genome.ucsc.edu/cgi-bin/hgTables

Select the following options:

clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser
Click 'get output'.

 

Reference:

http://www.novogene.com/tech/suppor/gene-calss/comprehensive/228.html

http://www.bio-info-trainee.com/tag/ensembl

相關文章
相關標籤/搜索