【轉錄組入門】4:參考基因組和註釋文件

做業要求:html

在UCSC下載hg19參考基因組,我博客有詳細說明,從gencode數據庫下載基因註釋文件,而且用IGV去查看你感興趣的基因的結構,好比TP53,KRAS,EGFR等等。
做業,截圖幾個基因的IGV可視化結構!還能夠下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構。瞭解IGV常識。ios

 

參考基因組--下載

地址:UCSC https://genome.ucsc.edu/數據庫

 

(1)、進入UCSC---選擇Downloads---genomic data---human---GRCh37/hg19---Full data set,下拉,找到chromFa.tar.gz,右擊chromFa.tar.gz,選擇複製連接地址vim

# 點擊 Full data set後,有各種文件的說明文檔瀏覽器

 

(2)、終端命令行操做bash

 1 # 切換到要存放參考基因組的目錄  2 $ cd data/GSE81916/reference/genome/hg19  3 
 4 # 用axel或wget下載參考基因組  5 $ nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz # wget後面跟的是參考基因組的下載地址
 6 
 7 # 解壓下載後的文件  8 $ tar -zxvf chromFa.tar.gz  9 
10 # 解壓後能夠發現,參考序列是按照染色體號分開列出的,咱們還須要把全部的序列寫入到一個文件中。 11 $ cat *.fa > hg19.fa 12 
13 #最後刪除其餘無用的文件 14 $ rm chr*.fa

 

 註釋文件--下載

(1)、進入Gencode數據庫---Data---Human---GRCh37-mapped Release---選擇2016年10月份發佈的最新註釋版本「gencode.v26lift37.annotation.gtf.gz」數據結構

鼠標右擊,「複製連接地址」app

(2)、命令行批量下載ide

1 # 用axel批量下載 2 $ axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
3 # 下載後解壓 4 $ gzip -d gencode.v26lift37.annotation.gtf.gz 5 # 與下載的hg19參考基因組放在一塊兒 6 $ mv genconde.v26lift37.annotation.gtf  ./Reference/Human/hg19

 

補充:GTF和GFF之間的區別工具

數據結構:都是由9列構成,分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不一樣。

GFF第9列:都是以鍵值對的形式,鍵值之間用「=」鏈接,不一樣屬性之間用「;」分隔,都是以ID這個屬性開始。下圖中有兩個ID,說明是不一樣的序列。

 

GTF第9列:一樣以鍵值對的形式,鍵值之間是以空格區分,值用雙引號括起來;不一樣屬性之間用「;」分隔;開頭必須是geneid, transciptid兩個屬性。

 

 基因組瀏覽器:IGV

 Integrative Genomics Viewer(IGV)是一種探索大型綜合基因組數據的高性能交互式可視化工具。它支持各類各樣的數據類型,包括基於芯片測序、二代測序數據和基因組註釋數據等。

 IGV下載

 1 # 進入IGV官網,並下載相應的軟件包,有Windows,Mac,和LINUX,這裏我下載Linux二進制包  2 $ cd ~/src  3 $ wget http://data.broadinstitute.org/igv/projects/downloads/IGV_2.3.97.zip
 4 $ unzip IGV_2.3.97.zip && mv IGV_2.3.97 ~/biosoft  5 
 6 # 添加環境變量  7 $ vim ~/.bashrc  8    PATH=$PATH:~/biosoft/IGV_2.3.97
 9 $ source ~/.bashrc 10 
11 # 運行IGV,Linux直接運行igv.sh能夠開啓IGV窗口,可是會比較慢,要耐心等待。 12 $ igv.sh

IGV使用

 0、初始化窗口

一、載入基因組,選擇Genome標籤,load咱們以前已經下載好的hg19.fa基因組。

二、載入基因組註釋,可是在載入以前須要將gff3進行排序,選擇Tools-Run igvtools,進入如下igvtools窗口:

三、得到sorted文件:command選擇sort,再選擇輸入的註釋文件,點擊Run,就能夠生成sorted.gff3文件。

四、經過file->load from file...選擇sorted文件,打開。選擇區域的大小,來看某些基因的信息,藍色的粗線條就是表明基因。說到底,IGV就是一個將基因組及其註釋信息可視化的工具。 (下圖是載入基因組和註釋信息後的窗口)

 

 

 理論知識

RNA-seq數據分析的通用套路是:

一、檢測測序數據的質量,若是須要,對數據進行預處理,去掉接頭,去掉質量差的數據等等

二、將全部數據回帖到genome,根據結果,進行新基因或轉錄本的鑑定,而後對轉錄數據進行定量,並進行差別表達分析。也可跳過對新基因和新轉錄本的分析,只對已知的基因和轉錄本進行定量。

三、若是沒有參考genome數據,能夠供transcritome數據代替。

四、若是參考轉錄組數據也沒有,能夠直接對RNA-seq數據進行從頭組裝,註釋,做爲參考轉錄組。

 

圖片源於《RNA-seq Data Analysis》

把高通量測序獲得的reads回帖到參考基因組上,既是進行後續基因表達定量差別表達分析的基礎,同時也是可變剪接分析SNPInDel分析以及測試數據質量控制的一部分

 回帖經常使用軟件:HISAT2, STAR

 

 

參考基因組

參考基因組的實質:就是某一物種的基因組序列,所以是fasta格式。

三大網站:

1.NCBI (https://www.ncbi.nlm.nih.gov/grc)

2.UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

3.Ensemble (http://asia.ensembl.org/index.html?redirect=no)

三大網站的ftp地址:

ensembl : ftp://ftp.ensembl.org/pub

NCBI : ftp://ftp.ncbi.nih.gov/genomes/

UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath

推薦:去Ensemble下載參考序列,(UCSC好久沒更新)

目前最經常使用的人的參考基因組版本以下(Jimmy總結):

NCBI

UCSC

Ensemble

GRCh36

hg18

ENSEMBL release_52

GRCh37

hg19

ENSEMBL release_59/61/64/68/69/75

GRCh38

hg38

ENSEMBL release_76/77/78/80/81/8

 

 

 

 

 

 

 

註釋文件

就是基因組的說明書。告訴咱們哪些序列是編碼蛋白的基因,哪些是非編碼基因,外顯子、內含子、UTR等的位置等等。註釋文件在以上三個提供參考基因組的網站中都有提供,好比Ensemble。可是如今最權威的人類和小鼠基因組的註釋還屬Gencode數據庫。

 

IGV軟件界面簡介

主窗口布局:

1.工具欄tool bar

2.紅色框顯示當前顯示的染色體的位置,當縮小顯示範圍到整個染色體範圍時,紅色框消失。

3.顯示當前查看的染色體序列的長度

4.該窗口顯示測序樣品的測序狀況。每一條track表明一個樣品或者一次實驗,顯示的狀況包括甲基化、表達水平、拷貝數,鹼基突變等信息。

5.參考基因組信息

6.track名(即樣品或者實驗名)

7.Attribute names屬性名,即序列信息,如indel、甲基化等。

更多的使用方法可查看IGV User Guide

 

參考資料

轉錄組入門(1)-做業-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1796-1-1.html

HOPTOP轉錄組入門(一)佈置運行環境-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1800-1-1.html

RNA-seq基礎入門傳送門-轉錄組-生信技能樹 http://www.biotrainee.com/thread-1750-1-1.html

浙大植物學小白的轉錄組筆記 http://www.360doc.com/content/17/0911/22/46164085_686360709.shtml

相關文章
相關標籤/搜索