轉錄組入門(4)：瞭解參考基因組及基因註釋

時間 2019-12-11

標籤轉錄入門瞭解參考基因組基因註釋简体版

原文原文鏈接

任務列表

1.在UCSC下載hg19參考基因組；
2.從gencode數據庫下載基因註釋文件，而且用IGV去查看感興趣的基因的結構，好比TP53，KRAS，EGFR等等。
3.截圖幾個基因的IGV可視化結構
4.下載ENSEMBL，NCBI的gtf，也導入IGV看看，截圖基因結構
5.瞭解IGV常識

在UCSC下載hg19參考基因組

hg1九、GRCH3八、 ensembl75這3種基因組版本應該是你們見得比較多的了，國際通用的人類參考基因組，其實他們儲存的是一樣的fasta序列，只是分別對應着三種國際生物信息學數據庫資源收集存儲單位，即NCBI，UCSC及ENSEMBL各自發布的基因組信息而已。有一些參考基因組比較小衆，存儲的序列也不同，好比BGI作的炎黃基因組，還有DNA雙螺旋結構提出者沃森（Watson）的基因組，還有2016年發表在nature上面的號稱最完善的韓國人作的基因組。前期咱們先不考慮這些小衆基因組，主要就下載hg19和hg38，都是UCSC提供的，雖然hg38相比hg19來講，作了不少改進，優勢也很多，但由於目前爲止不少註釋信息都是針對於hg19的座標系統來的，咱們就都下載了，正好本身探究一下。也順便下載一個小鼠的最新版參考基因組吧，反正比對也就是睡個覺的功夫，順便分析一下結果，看看比對率是否是很低。

mkdir rna_seq/data/reference && cd rna_seq/data/reference
mkdir -p genome/hg19 && cd genome/hg19
# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# nohup 是永久執行，& 是指在後臺運行。nohup COMMAND & 這樣就能使命令永久的在後臺執行
nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa

從gencode數據庫下載基因註釋文件，而且用IGV去查看感興趣的基因的結構

下載基因註釋文件

官網：http://www.gencodegenes.org/releases/26lift37.html

wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode.v26lift37.annotation.gtf.gz

下載安裝IGV、BEDtool

官網：http://software.broadinstitute.org/software/igv/download（下載 Binary Distribution 版本）

wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz
tar -zxvf bedtools-2.26.0.tar.gz
cd bedtools2
make

截圖幾個基因的IGV可視化結構

批量截圖：TP53,KRAS,EGFR

grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed
~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt

grep是一個多用途的文本搜索工具，linux中使用很是頻繁，而且使用很靈活，能夠是變量，也能夠是字符串。最基本的用法有如下兩種：

1.搜索內容中無空格，能夠直接執行grep命令，好比：grep pass a.txt，表示在a.txt文件中搜索pass所在的行
2.若是搜索內容中有空格，則須要使用單引號或者雙引號把搜索內容引發來，好比：grep "hello all" a.txt或者grep 'hello all' a.txt，若是不加單雙引號，則提示錯誤，沒法識別，由於不加引號，直接grep hello all a.txt，表示在all和a.txt中搜索hello，這確定是不對的

grep -w option file：精確搜索，能夠說準確性搜索，好比：grep -w b* a.txt：此命令執行時，*不會默認爲任何字符，只表示字面意思，就是一個*字符

管道命令操做符：」|」，它僅能處理經由前面一個指令傳出的正確輸出信息，也就是 standard output 的信息，對於 stdandard error 信息沒有直接處理能力。而後，傳遞給下一個命令，做爲標準的輸入 standard input

cut 命令從文件的每一行剪切字節、字符和字段並將這些字節、字符和字段寫至標準輸出。若是不指定 File 參數，cut 命令將讀取標準輸入。必須指定 -b、-c 或 -f 標誌之一。使用 -f 選項提取指定字段

下載ENSEMBL，NCBI的gtf

axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz

axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz
axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。