測序總結,高通量測序名詞

主要來自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQexpress

測序的黃金標準:一代測序了,故稱之爲黃金測序網絡

高通量測序最近這幾年很火愈來愈火,可是世界上更多的仍是一幫每天作分子克隆、養細胞、養細菌、雜蛋白的生物學家,究其緣由Sanger測序仍是測序屆的金標準,因爲精確度高於二、3代測序且保持大白菜價格使之地位穩固。app

應用範圍:De Novo測序、重測序: 如突變檢測、SNPs、插入、缺失克隆產物驗證、比較基因組、分型: 如微生物和真菌鑑定、HLA分型、病毒分型ide

其它: 如甲基化分析(重亞硫酸鹽測序)和SAGE(基因表達串聯分析)方法工具

臨牀應用:腫瘤突變基因的檢測和腫瘤個體化治療。優化

 

C值:是指真核生物細胞中,單倍細胞核(受精卵或二倍體體細胞中的一半量)裏所擁有的DNA含量this

正義鏈:又稱編碼鏈,DNA雙鏈中與RNA序列一致(T替代U以後)的單鏈序列,。與mRNA核苷酸序列相同的那條鏈(U代替T),稱編碼鏈或正義鏈.
反義鏈:又稱模板鏈,DNA雙鏈中按鹼基配對規律能 指引轉錄生成RNA的一股單鏈,
做用機制:兩條互補的DNA鏈其中一條攜帶編碼蛋白質信息,稱爲正義鏈,另外一條與之互補的稱爲反義鏈。
反義核酸技術:DNA或RNA結構中含編碼序列的鏈被稱爲正義鏈,與之相配對的鏈則叫作反義鏈。反義核酸(RNA和DNA)是和它們的靶基因相互補的。編碼

 

3、二代測序相關的名詞解釋spa

 

  高通量測序時,在芯片上的每一個反應,會讀出一條序列,是比較短的,叫read,它們是原始數據; 有不少reads經過片斷重疊,可以組裝成一個更大的片斷,稱爲contig; 多個contigs經過片斷重疊,組成一個更長的scaffold; 一個contig被組成出來以後,鑑定發現它是編碼蛋白質的基因,就叫singleton; 多個contigs組裝成scaffold以後,鑑定發現它編碼蛋白質的基因,叫unigene。一個UniGene不必定表明一個contig,一個UniGene可有多個contig翻譯

  consensus sequence:共有序列或者一致序列,比對功能相同的序列,並將每一位點上出現頻率最高的鹼基或者氨基酸排列在一塊兒造成的理想序列

  Ion Torrent Personal Genome Machine(PGM)

  單分子實時(Single Molecular Real Time,SMRT)DNA測序技術

  這樣就實現了「邊合成邊測序(Sequencing By Synthesis,SBS)」,如45四、Illumina、Ion Torrent等測序技術;或者「邊鏈接邊測序(Sequencing By Ligation,SBL)」,如SOLiD技術。

  加強子:是一種可以提升轉錄效率的順式調控元件,最先是在SV40病毒中發現的長約200bp的一段DNA,可以使旁側的基因轉錄提升100倍,其後在多種真核生物,甚至在原核生物中都發現了加強子。加強子一般佔100~200bp長度,也和啓動子同樣由若干組件構成,基本核心組件常爲8~12bp,能夠單拷貝或多拷貝串連形式存在。

什麼是Segment duplication?  通常稱爲SD區域,串聯重複是由序列相近的一些DNA片斷串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要做用。在人類染色體Y和22號染色體上,有很大的SD序列。

  CpG島個數:人類基因組序列草圖分析結果代表,人類基因組CpG島約爲28890個,大部分染色體每1 Mb就有5—15個CpG島,平均值爲每Mb含10.5個CpG島,CpG島的數目與基因密度有良好的對應關係。因爲DNA甲基化與人類發育和腫瘤疾病的密切關係,

  DNA甲基化(DNA methylation)爲DNA化學修飾的一種形式,能在不改變DNA序列的前 提下,改變遺傳表觀。 DNA甲基化在維持細胞正常功能、傳遞基因組印記,胚胎髮育、腫瘤發生等方面發揮重要做用,目前已經成爲表觀遺傳學和表觀基因組學的研究熱點。

 

基因組是如何組裝的? 通常來講,針對以Illumina Gemone Analyzer測序結果爲主的組裝策略以下:

    (1)先利用短序列組裝軟件對paired-end數據進行de novo拼接,組裝成contigs,這個階段通常須要提供高覆蓋度的paired-end測序數據,須要耗費大量的計算機內存,這也是基因組組裝最困難的一步;

    (2)逐步加入長插入片斷的mate-pair數據搭建scaffold,通常來講,mate-pair的測序深度不會過高,經過mate-pair雙端距離信息,把contigs鏈接成更大的scaffold;

    (3)複查paired-end和mate-paired插入片斷長度信息,填補gap;

    (4)有時候會加入454的數據,會對填補gap和延長contigs起到很大的幫助做用。

 

什麼是高通量測序?

 

高通量測序技術(High-throughputsequencing,HTS)是對傳統Sanger測序(稱爲一代測序技術)革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 所以在有些文獻中稱其爲下一代測序技術(next generation sequencing,NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成爲可能, 因此又被稱爲深度測序(Deep sequencing)

 

什麼是基因組重測序(Genome Re-sequencing)

 

全基因組重測序是對基因組序列已知的個體進行基因組測序,並在個體或羣體水平上進行差別性分析的方法。隨着基因組測序成本的不斷下降,人類疾病的致病突變研究由外顯子區域擴大到全基因組範圍。經過構建不一樣長度的插入片斷文庫和短序列、雙末端測序相結合的策略進行高通量測序,實如今全基因組水平上檢測疾病關聯的常見、低頻、甚至是罕見的突變位點,以及結構變異等,具備重大的科研和產業價值。

 

什麼是de novo測序

 

de novo測序也稱爲從頭測序:其不須要任何現有的序列資料就能夠對某個物種進行測序,利用生物信息學分析手段對序列進行拼接,組裝,從而得到該物種的基因組圖譜。得到一個物種的全基因組序列是加快對此物種瞭解的重要捷徑。隨着新一代測序技術的飛速發展,基因組測序所需的成本和時間較傳統技術都大大下降,大規模基因組測序漸入佳境,基因組學研究也迎來新的發展契機和革命性突破。利用新一代高通量、高效率測序技術以及強大的生物信息分析能力,能夠高效、低成本地測定並分析全部生物的基因組序列。

 

什麼是外顯子測序(whole exon sequencing,WES)

 

外顯子組測序是指利用序列捕獲技術全基因組外顯子區域DNA捕捉並富集後進行高通量測序的基因組分析方法。外顯子測序相對於基因組重測序成本較低,對研究已知基因的SNP、Indel等具備較大的優點,但沒法研究基因組結構變異如染色體斷裂重組等。

 

什麼是mRNA測序 (RNA-seq)

 

轉錄組學(transcriptomics)是在基因組學後新興的一門學科,即研究特定細胞某一功能狀態下所能轉錄出來的全部RNA(包括mRNA和非編碼RNA)的類型與拷貝數。Illumina提供的mRNA測序技術可在整個mRNA領域進行各類相關研究和新的發現。mRNA測序不對引物或探針進行設計,可自由提供關於轉錄的客觀和權威信息。研究人員僅須要一次試驗便可快速生成完整的poly-A尾的RNA完整序列信息,並分析基因表達、cSNP、全新的轉錄、全新異構體、剪接位點、等位基因特異性表達和罕見轉錄等最全面的轉錄組信息。簡單的樣品製備和數據分析軟件支持在全部物種中的mRNA測序研究。

 

什麼是small RNA測序

 

SmallRNA(micro RNAs、siRNAs和 pi RNAs)是生命活動重要的調控因子,在基因表達調控、生物個體發育、代謝及疾病的發生等生理過程當中起着重要的做用。Illumina可以對細胞或者組織中的所有Small RNA進行深度測序及定量分析等研究。實驗時首先將18-30 nt範圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭後體外反轉錄作成cDNA再作進一步處理後,利用測序儀對DNA片斷進行單向末端直接測序。經過Illumina對Small RNA大規模測序分析,能夠從中得到物種全基因組水平的miRNA圖譜,實現包括新miRNA分子的挖掘,其做用靶基因的預測和鑑定、樣品間差別表達分析、miRNAs聚類和表達譜分析等科學應用。

 

什麼是miRNA測序

 

成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子,經過與mRNA相互做用影響目標mRNA的穩定性及翻譯,最終誘導基因沉默,調控着基因表達、細胞生長、發育等生物學過程。基於第二代測序技術的microRNA測序,能夠一次性得到數百萬條microRNA序列,可以快速鑑定出不一樣組織、不一樣發育階段、不一樣疾病狀態下已知和未知的microRNA及其表達差別,爲研究microRNA對細胞進程的做用及其生物學影響提供了有力工具。

 

什麼是Chip-seq

 

染色質免疫共沉澱技術(ChromatinImmunoprecipitation,ChIP)也稱結合位點分析法,是研究體內蛋白質與DNA相互做用的有力工具,一般用於轉錄因子結合位點或組蛋白特異性修飾位點的研究。將ChIP與第二代測序技術相結合的ChIP-Seq技術,可以高效地在全基因組範圍內檢測與組蛋白、轉錄因子等互做的DNA區段。

ChIP-Seq的原理是:首先經過染色質免疫共沉澱技術(ChIP)特異性地富集與目的蛋白結合的DNA片斷,並對其進行純化與文庫構建;而後對富集獲得的DNA片斷進行高通量測序。研究人員經過將得到的數百萬條序列標籤精肯定位到基因組上,從而得到全基因組範圍內與組蛋白、轉錄因子等互做的DNA區段信息。

 

什麼是CHIRP-Seq

 

CHIRP-Seq( Chromatin Isolationby RNA Purification )是一種檢測與RNA綁定的DNA和蛋白的高通量測序方法。方法是經過設計生物素或鏈黴親和素探針,把目標RNA拉下來之後,與其共同做用的DNA染色體片斷就會附在到磁珠上,最後把染色體片斷作高通量測序,這樣會獲得該RNA可以結合到在基因組的哪些區域,但因爲蛋白測序技術不夠成熟,沒法知道與該RNA結合的蛋白。

 

什麼是RIP-seq

 

RNA Immunoprecipitation是研究細胞內RNA與蛋白結合狀況的技術,是瞭解轉錄後調控網絡動態過程的有力工具,能幫助咱們發現miRNA的調節靶點。這種技術運用針對目標蛋白的抗體把相應的RNA-蛋白複合物沉澱下來,而後通過分離純化就能夠對結合在複合物上的RNA進行測序分析。

RIP能夠當作是廣泛使用的染色質免疫沉澱ChIP技術的相似應用,但因爲研究對象是RNA-蛋白複合物而不是DNA-蛋白複合物,RIP實驗的優化條件與ChIP實驗不太相同(如複合物不須要固定,RIP反應體系中的試劑和抗體絕對不能含有RNA酶,抗體需經RIP實驗驗證等等)。RIP技術下游結合microarray技術被稱爲RIP-Chip,幫助咱們更高通量地瞭解癌症以及其它疾病總體水平的RNA變化。

 

什麼是CLIP-seq

 

CLIP-seq,又稱爲HITS-CLIP,即紫外交聯免疫沉澱結合高通量測序(crosslinking-immunprecipitationand high-throughput sequencing), 是一項在全基因組水平揭示RNA分子與RNA結合蛋白相互做用的革命性技術。其主要原理是基於RNA分子與RNA結合蛋白在紫外照射下發生耦聯,以RNA結合蛋白的特異性抗體將RNA-蛋白質複合體沉澱以後,回收其中的RNA片斷,經添加接頭、RT-PCR等步驟,對這些分子進行高通量測序,再經生物信息學的分析和處理、總結,挖掘出其特定規律,從而深刻揭示RNA結合蛋白與RNA分子的調控做用及其對生命的意義。

 

什麼是染色體構象捕獲技術

 

3C 一般是用啓動子或者某一個基因或者基因組某一個短的片斷在鄰近的幾十kb或者幾百kb基因組掃描能夠得到相互做用區域。因爲實驗須要特異性引物,於是實驗室至關費力的,且檢測範圍小。

 

4C同3C同樣作單位點的檢測,但其檢測擴展到了整個基因組上。主要是引入了反向PCR,於是只須要對這一單一位點設計引物便可。

 

5C 作兩個大片斷之間相互做用點的檢測,能夠達到10Mb水平。其仍需使用引物,且引物設計是其技術的難點。

 

Hi-C 能夠實現基因組對基因組水平的檢測,可是得到高精度須要很是大的測序深度

 

ChIA-PET標在於特定的蛋白因子及其相關聯的染色質相互做用。該技術將配對末端標籤測序技術與ChIP相結合,對富集了某種蛋白質的DNA 片斷進行交聯, 能夠測定全基因組範圍的特定轉錄因子參與的染色質遠程交互做用, 從而能夠呈現高特異性和高分辨率的染色質相互做用。

 

什麼是Hi-C輔助基因組組裝

 

Hi-C輔助基因組組裝是指在已有二代或三代或光學圖譜輔助組裝的Draft genome序列和已知染色體數目的前提下,利用Hi-C測序數據將Draft genome序列進行染色體羣組的劃分,並肯定各序列在染色體上的順序和方向,使基因組組裝組裝水平提高到染色體水平的技術。

 

什麼是metagenomic(宏基因組)

 

Magenomics研究的對象是整個微生物羣落。相對於傳統單個細菌研究來講,它具備衆多優點,其中很重要的兩點:(1) 微生物一般是以羣落方式共生於某一小生境中,它們的不少特性是基於整個羣落環境及個體間的相互影響的,所以作Metagenomics研究比作單個個體的研究更能發現其特性;(2)Metagenomics研究無需分離單個細菌,能夠研究那些不能被實驗室分離培養的微生物。

宏基因組是基因組學一個新興的科學研究方向。宏基因組學(又稱元基因組學,環境基因組學,生態基因組學等),是研究直接從環境樣本中提取的基因組遺傳物質的學科。傳統的微生物研究依賴於實驗室培養,宏基因組的興起填補了沒法在傳統實驗室中培養的微生物研究的空白。過去幾年中,DNA測序技術的進步以及測序通量和分析方法的改進使得人們得以一窺這一未知的基因組科學領域。

 

什麼是SNP、SNV(單核苷酸位點變異)

 

單核苷酸多態性singlenucleotide polymorphism,SNP 或單核苷酸位點變異SNV。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引發的多態性。同一物種、不一樣個體基因組DNA序列同一位置上的單個核苷酸存在差異的現象。有這種差異的基因座、DNA序列等可做爲基因組做圖的標誌。人基因組上平均約每1000個核苷酸便可能出現1個單核苷酸多態性的變化,其中有些單核苷酸多態性可能與疾病有關,但可能大多數與疾病無關。單核苷酸多態性是研究人類家族和動植物品系遺傳變異的重要依據。在研究癌症基因組變異時,相對於正常組織,癌症中特異的單核苷酸變異是一種體細胞突變(somatic mutation),稱作SNV。

 

什麼是INDEL (基因組小片斷插入)

基因組上小片斷(>50bp)的插入或缺失,形同SNP/SNV。

 

什麼是copy number variation(CNV):基因組拷貝數變異

基因組拷貝數變異是基因組變異的一種形式,一般使基因組中大片斷的DNA造成非正常的拷貝數量。例如人類正常染色體拷貝數是2,有些染色體區域拷貝數變成1或3,這樣,該區域發生拷貝數缺失或增長,位於該區域內的基因表達量也會受到影響。若是把一條染色體分紅A-B-C-D四個區域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發生了C區域的擴增及缺失,擴增的位置能夠是連續擴增如A-B-C-C-D也能夠是在其餘位置的擴增,如A-C-B-C-D。

 

什麼是structure variation(SV):基因組結構變異

染色體結構變異是指在染色體上發生了大片斷的變異。主要包括染色體大片斷的插入和缺失(引發CNV的變化),染色體內部的某塊區域發生翻轉顛換,兩條染色體之間發生重組(inter-chromosometrans-location)等。通常SV的展現利用Circos軟件。

 

什麼是Segment duplication

通常稱爲SD區域,串聯重複是由序列相近的一些DNA片斷串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要做用。在人類染色體Y和22號染色體上,有很大的SD序列。

 

什麼是genotype and phenotype

既基因型與表型;通常指某些單核苷酸位點變異與表現形式間的關係。

 

什麼是Read?

高通量測序平臺產生的短序列就稱爲reads。PE125,就是讀長爲125bp雙端測序。

 

什麼是Contig?

拼接軟件基於reads之間的overlap區,拼接得到的序列稱爲Contig(重疊羣),無N

 

什麼是Scaffold?

基因組de novo測序,經過reads拼接得到Contigs後,每每還須要構建454 Paired-end庫或Illumina Mate-pair庫,以得到必定大小片斷(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基於這些序列,能夠肯定一些Contig之間的順序關係,這些前後順序已知的Contigs組成Scaffold(含有N)。

 

什麼是Contig N50?

Reads拼接後會得到一些不一樣長度的Contigs。將全部的Contig長度相加,能得到一個Contig總長度。而後將全部的Contigs按照從長到短進行排序,如得到Contig 1,Contig 2,Contig 3...………Contig 25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最後一個加上的Contig長度即爲Contig N50。舉例:Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時,Contig 4的長度即爲Contig N50。Contig N50能夠做爲基因組拼接的結果好壞的一個判斷標準。

 

什麼是Scaffold N50?

Scaffold N50與Contig N50的定義相似。Contigs拼接組裝得到一些不一樣長度的Scaffolds。將全部的Scaffold長度相加,能得到一個Scaffold總長度。而後將全部的Scaffolds按照從長到短進行排序,如得到Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最後一個加上的Scaffold長度即爲Scaffold N50。舉例:Scaffold 1+Scaffold 2+Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時,Scaffold 5的長度即爲Scaffold N50。Scaffold N50能夠做爲基因組拼接的結果好壞的一個判斷標準。

 

什麼是測序深度和覆蓋度?

測序深度是指測序獲得的總鹼基數與待測基因組大小的比值。假設一個基因大小爲2M,測序深度爲10X,那麼得到的總數據量爲20M。覆蓋度是指測序得到的序列佔整個基因組的比例。因爲基因組中的高GC、重複序列等複雜結構的存在,測序最終拼接組裝得到的序列每每沒法覆蓋有所的區域,這部分沒有得到的區域就稱爲Gap。例如一個細菌基因組測序,覆蓋度是98%,那麼還有2%的序列區域是沒有經過測序得到的。

 

什麼是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百萬個map上的reads中map到外顯子的每1K個鹼基上的reads個數。

假若有1百萬個reads映射到了人的基因組上,那麼具體到每一個外顯子呢,有多少映射上了呢,而外顯子的長度不一,那麼每1K個鹼基上又有多少reads映射上了呢,這大概就是這個RPKM的直觀解釋。

若是對應特定基因的話,那麼就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read

 

Total exon reads

This is the number in the column with header Total exonreads in the rowfor the gene. This is the number of reads that have beenmapped to a region inwhich an exon is annotated for the gene or across theboundaries of two exons oran intron and an exon for an annotated transcript ofthe gene. For eukaryotes,exons and their internal relationships are defined byannotations of type mRNA.映射到外顯子上總的reads個數。這個是映射到某個區域上的reads個數,這個區域或者是已知註釋的基因或者跨兩個外顯子的邊界或者是某個基因已經註釋的轉錄本的內含子、外顯子。對於真核生物來講,外顯子和它們本身內部的關係由某類型的mRNA來註釋。

 

Exonlength:

This is the number in the column with theheader Exon length inthe row for the gene, divided by 1000. This is calculatedas the sum of thelengths of all exons annotated for the gene. Each exon isincluded only once inthis sum, even if it is present in more annotatedtranscripts for the gene.Partly overlapping exons will count with their fulllength, even though theyshare the same region.外顯子的長度。計算時,計算全部某個基因已註釋的全部外顯子長度的總和。即便某個基因以多種註釋的轉錄本呈現,這個外顯子在求和時只被包含一次。即便部分重疊的外顯子共享相同的區域,重疊的外顯子以其總長來計算。

 

Mapped reads

The sum of all the numbers in the column with header Totalgenereads. The Total gene reads for a gene is the total number ofreads that aftermapping have been mapped to the region of the gene. Thus thisincludes all thereads uniquely mapped to the region of the gene as well asthose of the readswhich match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene's region. Agene's region is that comprised of the flanking regions(if it was specified infigure 18.110), the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of the totalgene reads numbers is the number of mapped reads for thesample (you can findthe number in the RNA-Seq report).map的reads總和。映射到某個基因上的全部reads總數。所以這包含全部的惟一映射到這個區域上的reads。

舉例:好比對應到該基因的read有1000個,總reads個數有100萬,而該基因的外顯子總長爲5kb,那麼它的RPKM爲:10^9*1000(reads個數)/10^6(總reads個數)*5000(外顯子長度)=200或者:1000(reads個數)/1(百萬)*5(K)=200這個值反映基因的表達水平。

 

FPKM(fragmentsper kilobase of exon per million fragments mapped)

FPKM與RPKM計算方法基本一致。不一樣點就是FPKM計算的是fragments,而RPKM計算的是reads。Fragment比read的含義更廣,所以FPKM包含的意義也更廣,能夠是pair-end的一個fragment,也能夠是一個read。

 

什麼是轉錄本重構

用測序的數據組裝成轉錄本。有兩種組裝方式:1,de-novo構建; 2,有參考基因組重構。其中de-novo組裝是指在不依賴參考基因組的狀況下,將有overlap的reads鏈接成一個更長的序列,通過不斷的延伸,拼成一個個的contig及scaffold。經常使用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構,是指先將read貼回到基因組上,而後在基因組經過reads覆蓋度,junction位點的信息等獲得轉錄本,經常使用工具包括scripture、cufflinks。

 

什麼是表達譜

基因表達譜(geneexpression profile):指經過構建處於某一特定狀態下的細胞或組織的非偏性cDNA文庫,大規模cDNA測序,收集cDNA序列片斷、定性、定量分析其mRNA羣體組成,從而描繪特定細胞或組織特定狀態下的基因表達種類和豐度信息,這樣編製成的數據表就稱爲基因表達譜

 

什麼是比較基因組學

比較基因組學(ComparativeGenomics)是基於基因組圖譜和測序基礎上,對已知的基因和基因組結構進行比較,來了解基因的功能、表達機理和物種進化的學科。利用模式生物基因組與人類基因組之間編碼順序上和結構上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機制,闡明物種進化關係,及基因組的內在結構。

 

什麼是基因組註釋

基因組註釋(Genomeannotation) 是利用生物信息學方法和工具,對基因組全部基因的生物學功能進行高通量註釋,是當前功能基因組學研究的一個熱點。基因組註釋的研究內容包括基因識別和基因功能註釋兩個方面。基因識別的核心是肯定全基因組序列中全部基因的確切位置。

4、主要注意問題

1.建庫

將基因組序列採用鳥槍法打碎——俗稱建庫,而後採用凝膠電泳的方式將不一樣長度的片斷分離,好比如今建庫,短庫通常建180bp,200bp或者300bp等。這裏的180 和300 就是測序片斷的長度。固然由於測序儀的讀長是固定的,好比110,125,或者450等。公司如今採用的是220bp文庫,讀長爲125bp,由於是雙端測序,所以會有30bp的overlap區(這些是後期利用allpath-lg組裝的必要條件)。

2.過濾

3.評估

作完這些數據處理以後,通常還要對插入片斷的評估。插入片斷其實就是文庫的大小。好比300bp的文庫,插入片斷就是300bp,可是咱們都應該知道在目前的測序水平下,不免會有失誤和偏差,偏差致使的後果是雖然插入片斷是300bp,可是隻能是平均值是300bp,存在一個方差,大概在幾十bp左右。一般偏差咱們是能夠接受的,而對於失誤,咱們就要把它給找出來,若是插入片斷,嚴重偏離300bp,那麼就意味着建庫失敗。一般咱們採用的檢驗方法是將數據進行基因組組裝,組裝以後進行soap比對,而後畫出比對的效率圖。有人會問了難道只能組裝完以後才能進行插入片斷評估嗎?我不知道其餘的方式,只能說莫須有。

4第三代測序技術

第三代測序技術是指單分子測序技術。DNA測序時,不須要通過PCR擴增,實現了對每一條DNA分子的單獨測序。第三代測序技術也叫從頭測序技術,即單分子實時DNA測序。

主要包括單分子熒光技術,也就是不須要擴增,每個分子顯示一種光,而後實時去監控,去讀取。所以這裏如何構建一個環境,讓核酸分子單獨發光,去識別是技術難點。

目前三代數據主要應用在科研市場的兩個方向上,第一個是基因組的組裝,另外一個就是全長轉錄組。

1.糾錯 

第一個就是因爲三代數據的隨機錯誤不少,所以對數據進行糾錯是繞不過去的,介紹兩款軟件,一款是pacbioToCa,一款是ectool。一個是利用二代數據糾錯,一個是利用contig進行糾錯。

 2.組裝 

第二個軟件就是三代數據的組裝,推薦celera Assembly。固然確定還有其餘的牛X的軟件所以咱們很難拿到。對了,多一句嘴,官網說單獨用三代組裝的話,深度要到40x。

 3.混拼 

第三個軟件是混拼,也就是二代數據和三代數據一塊兒組裝。軟件爲,不廢話,官網要求深度爲20x。

 4.補洞 

第四個軟件是我喜歡的,就是利用三代數據的長片斷來填補二代數據組裝完的gao和鏈接contig爲scaffold。推薦軟件PBjerry。官網要求深度爲5X。

 

5納米孔測序技術

相關文章
相關標籤/搜索