三代測序技術概況

第三代長序列測序技術爲得到高質量的基因組數據提供了機遇。二代測序會產生不少數百個鹼基大小的讀長,而三代測序的讀長能夠長達10kbp。這種長讀長對基因組的從頭組裝、基因組結構變異和基因分型(phasing)有重要的意義。
算法

自從二代測序技術商業化以來,不少測序平臺相繼出現,好比Roche/4542005年),Illumina/Solexa2007年)等。這些測序平臺使得測序價格大幅降低。所以,人們能夠測定不少新物種序列,同時還可以研究不一樣種羣的基因組多樣性。可是二代測序對研究基因組結構變異卻十分困難。並且,經過二代測序技術對新基因組的從頭測序結果也並不理想,甚至不如以前老的方法準確,容易形成基因組片斷的缺失。即使是對基因組的重測序也很難進行基因組結構變異的研究。ide

不過經過單分子測序則能很大程度上解決這些二代測序技術的不足。單分子測序的讀長可以達到10kbp,甚至超過100kbp。這麼大的長度對研究基因組結構變異提供了很大的方便。優化

image.png

更爲重要的是,長讀長可以很準確的顯示出重複序列,或者連續性更好的基因組。還可以很容易的識別出插入缺失突變、轉座、倒置等結構變異。同時單分子測序的測序深度在基因組上分佈比較均一,不會像二代測序那樣受序列內容影響(如GC含量)形成不少區域的測序深度下降甚至缺失。【GC含量高的序列容易形成測序深度偏低】。經過這種第三代長測序技術可以造成一個超級contigscaffold),有時甚至能夠覆蓋整個染色體的一條臂。
ui

三代測序技術已經用於了不少微生物基因組的高精度從頭組裝、動植物基因組的連續性重構。同時也能夠用了重測序分析,好比得到人類染色體的結構變異圖和分型變異圖。尤爲是這些新技術的應用,填補了在人類參考基因組中存在的序列間隔。此外,讀長的提高在臨牀上也有很重要應用,好比對人類主要組織兼容複合物(HLA)的測序。在宏基因組中,經過長序列測序,可以解決不一樣種羣個體混雜的問題。三代測序還能夠用於轉錄組的研究以及表觀遺傳修飾的研究。總之,相比於二代測序,三代技術帶來的三大特色(‘3C’)連貫性(contiguity)、完整性(completeness)和準確性(correctness.spa

目前有三種商用第三代測序平臺:PacBioSingleMolecule Real Time(SMRT)測序IlluminaTru-seqSynthetic Long-Read測序,和Oxford Nanopore測序。這些測序平臺能夠產生5kbp15kbp的測序片斷,有些可達100kbpblog

固然其中最成熟的仍是PacBioSMRT,其在2010年開始商用SMRT也是使用邊合成邊測序的技術,經過熒光標記的鹼基來識別DNA序列。好比PacBio RSII測序平臺,可以測得100kbp讀長,天天產生8GB的數據量。原始測序錯誤在10%-15%,不過經過公式校訂能夠將每一個鹼基的準確率提高到99.99%。不過PacBio的不足時價格比較高,這也限制了其大規模的使用。儘管如此,仍是有很多研究經過PacBio對微生物、真菌、動植物的基因組進行了測序和組裝,也包括人的。ci

第二個三代測序技術是在2012Illumina發明的TruSeq Synthetic  Long Reads,是經過短讀長序列得來的,因此其準確度很是高,錯誤率只有0.1%,於是能夠不用校訂直接用來基因分型分析和組裝。它的缺點是讀長相對於其餘三代測序要短一些,並且容易受到GC偏倚影響。此外,若是是從頭組裝基因組,那麼對短讀長的測序深度可能會達到900X1500X,這樣最後才能得到30X的長讀長序列。string

最新的三代測序技術在2014,來自Oxford Nanopore。其最新的測序平臺MinION很是小,攜帶很方便。它的測序讀長和PacBio類似。不過它的準確度很低,測序通量也不高,於是它的使用目前主要針對基因組較小的生物,好比大腸桿菌和酵母菌。經過校訂,每一個鹼基的準確性也能提高到99.95%。可是因爲其體積很是小,花費很低,很是適合在偏遠的地方使用,好比在西非爆發埃博拉的地區。it

image.png

(本人實拍,Nanodrop的MinION測序儀器)io

第三代基因圖譜

基因圖譜可以幫助咱們在不瞭解每個鹼基序列的狀況下知道DNA的序列結構。能夠經過分析雜合子標記之間的重組率來重建基因圖譜。但這須要很大的樣本量,對於某些物種來講是很難實現的。二代基因圖譜使用了配對文庫創建。最成功的第三代基因圖譜是在2010年來自BioNano Genomics Irys。經過PacBio測序和Irys基因圖譜完成了至今連貫性最好的從頭組裝的人類基因組,contigN50達到了1.4Mbp,同時在基因組中發現了數百的新的結構變異。在2015年初,Dovetail Genomics經過優化Hi-C的方法發明了cHiCago方法,這種方法使得基因圖譜的構建相對便宜,不過這個方法屬於Dovetail專有,樣本必須寄到他們公司有他們內部完成構建。最新的基因圖譜構建技術來自10XGenomics。它的原理和Illunima的長測序原理類似。

基因組裝基因組裝最大的障礙來自基因組中的重複序列。二代測序對重複序列,尤爲是比讀長而還長的重複序列的組裝無能爲力。相比之下,三代測序因爲其讀長很長,在對重複序列的組裝中發揮了巨大做用。

長讀長的組裝使用overlapgraph或者stringgraph來完成。IlluminaTru-seq的準確性很高,於是能夠直接用來組裝,而PacBioMinION的準確性低,由於須要在組裝以前最數據進行校訂。三代測序產生的讀長分佈一般是對數正態分佈。

image.png

這種分佈就意味着,大多數讀長是很短的,只有少數讀長可能達到100kbp。因此即使是三代測序技術,保證必定的測序深度對基因組的組裝依然是十分重要的。

結構變異分析:若是是僅僅研究像SNP同樣的很小的變異,二代測序就可以勝任;可是若是要研究很大的結構變異(>50bp),則二代測序的短讀長很難識別變異位點。三代測序的長讀長可以頗有效的識別出結構變異位點。好比經過三代測序技術,在人類基因組中發現了數萬個結構變異,而這些變異一般沒法經過二代測序識別。

基因分型:即將雜合子個體的變異分配到不一樣的單倍體上。基因分型會受到測序錯誤和測序深度偏倚的影響,可能所以引入錯誤的變異類型或者錯失真正的雜合子變異類型。在人類基因組中,雜合子變異在染色體上的距離爲1000bp– 1500bp,這個距離顯然超過了二代測序的讀長,而三代測序則可以很準確的對此進行分型。

第三代測序技術大大提升了基因組的質量,對於大多數基因組<100Mbp的生物,其基因組能夠經過第三代測序進行完美的組裝;對於更大的基因組,如人類和其餘哺乳動物,其基因組的組裝質量也有很大幅度提高。

三代測序的三大特性

連貫性:連貫性對基因組的組裝很是重要,若是連貫性比較好,可以準確的反應出基因結構之間的關係(外顯子、基因簇、轉移元件、調節序列等)。早在1988年就有了Lander-Waterman模型來描述基因的連貫性,估計最低測序深度,而且預測了基於不一樣讀長的contig的平均長度。不過這種預測在測序深度很大的條件下很不許確,好比其預測在100bp讀長100X的測序深度下,能夠組裝成數百GB大小的contig,顯然這已經超多了人類基因組自己的大小。

Lander-Waterman預測不許確的一個緣由是其忽略了基因組中的重複序列。重複序列的大小分佈是按照指數形式遞減的,也就是絕大多數重複序列都是很短的,因此哪怕是測序讀長稍微增長一些,就能解決掉很大一部分從新序列的組裝問題。

完整性:若是一個基因組的測序深度>50X,理論上每個鹼基都會被測到。但實際上,基因組仍然會有不少確實區域,好比即使是最新的人類參考基因組,其中仍然會有超過百萬的「N」。讀長的提高可以有效提升基因組組裝的完整性。

準確性:基因組組裝的準確性能夠在覈酸水平或者結構變異水平進行描述。Illumina的三代測序技術的準確性很是高,每一個鹼基準確性>99.9%PacBioNanopore的準確性在足夠測序深度的狀況下,通過算法校訂以後也可以達到99.9%。對於PacBio測序而言,其準確性主要是受到隨機的插入缺失突變的影響。而Nanopore的準確性會受到一些非隨機因素的影響,好比共聚物序列,於是其準確性要落後於PacBio。在基因組結構水平上的準確性主要受重複序列的影響。重複序列可能會被認爲是同一個序列區域。長讀長測序可以減小這種錯誤,3.6kbp的讀長與150kbp的讀長相比,組裝錯誤多了10倍。

總結

三代測序技術極大的提高了基因組的質量。雖說20X的測序可以對一個基因組的組裝已經足夠了,可是仍是建議>75X,這樣有足夠的測序深度可以對三代測序中的錯誤進行有效的校訂。若是預算和樣本容許,建議只對校訂後深度>20X,長度>20kbp的測序片斷進行組裝。同時,測序技術發展十分迅速,在將來咱們能夠有更高質量的基因組,更低的花費。


==== THE END ===

參考資料:

Lee, H., Gurtowski, J., Yoo, S., Nattestad, M., Marcus, S., Goodwin, S., ... & Schatz, M. (2016). Third-generation sequencing and the future of genomics. BioRxiv, 048603.

Bellec, A., Courtial, A., Cauet, S., Rodde, N., & Vautrin, S. (2016). Long Read Sequencing Technology to Solve Complex Genomic Regions Assembly in Plants. Next Generat Sequenc & Applic, 3(128), 10-4172.

image.png

相關文章
相關標籤/搜索