相對於較早出現的Sanger雙脫氧核苷酸測序技術(簡稱Sanger測序),2005年後出現的NGS測序技術,使得基因組研究進入高通量時代,促進了基因組學科學研究及技術轉化應用。html
在基因組學領域,NGS一般是next-generation sequencing的縮寫,意爲下一代或者新一代測序技術,亦有人稱之高通量測序技術(High-throughput sequencing,HTS)、二代測序技術(second-generation sequencing)。至於到底哪些測序技術屬於NGS,並沒有明確統一的界定,目前主要有兩種觀點,存在些許差異。工具
1、對NGS的第一種理解:性能
自動化的Sanger測序技術,一般被稱爲「第一代」測序技術。以Sanger技術爲起點,新出現的技術被稱爲下一代測序技術(簡稱NGS)1。編碼
這些新技術涉原理,依賴不一樣的模板製備方法(例如乳液PCR、DNA納米球、橋式擴增 、單分子模板)、序列測定方法(焦磷酸測序、基於可逆終止化學測序、基於鏈接反應的測序、磷酸鏈接熒光核苷酸或實時測序)、基因組比對與組裝方法等。人工智能
這種觀點認爲目前的大規模並行測序技術都屬於NGS,包括Roche/454測序、Illumina/Solexa測序、Life的SOLiD與ION系列以及華大基因的BGISEQ/MGISEQ系列等;此外,持這種觀點的學者還將Helicos BioScience、Pacific BioSciences以及Oxford Nanopore的單分子及納米孔測序技術均歸入NGS技術,並未單獨將其定義爲第三代測序技術1~3。spa
2、對NGS第二種理解:htm
另外一種理解認爲 NGS主要是指基於大規模並行測序(massively parallel sequencing,簡寫MPS)的測序技術4。blog
大規模並行測序的關鍵技術誕生於上世紀90年代,於2005年商業化進入市場。這一技術同時對成百上千萬的待檢測DNA模板分子進行測序,加大了測序反應的效率與通量,使得一次測序實驗便可以完成一個或更多的人類基因組序列的測定。儘管不一樣的大規模並行測序技術原理各不相同,但有一些共同特色,楊煥明老師有很是簡潔的總結5:(1)「裸」、「密」並行,每個分子簇爲一個裸露的測序反應,使得測序通量提升了幾個數量級;圖片
(2)測序通量的提升,損失了下機的讀長(初期只有約20個鹼基,如今已有顯著提高)。ci
儘管MPS的標本製備和測序原理不一樣於Sanger測序,但它與Sanger 測序同樣,仍須要對測序分子進行擴增,於是也不可避免的增長引入序列偏差的機率和GC誤差,也不能直接分析不一樣修飾的核苷酸5。
按照這一觀點,單分子測序不屬於NGS,而是更加新的技術。
3、NGS:Next-generation仍是Now-generation?
隨着MPS成熟穩定,在2008~2010年左右,NGS有了一個新的含義,即Now-generation sequencing6,7,直譯爲「當代」或者「現代「測序技術。
也就是說,「下一代」測序技術變成了「現代」測序技術。不過,Now-generation sequencing這一說提法並未被普遍使用。所以在多數狀況下,NGS主要是指Next-generation sequencing。
在高通量測序技術剛剛問世時,人們並無預料到測序技術的後續發展如此迅猛。所以,不管是Next-generation 仍是Now-generation,其實都是一個比較籠統的提法,自己也意味着變化和發展。這也就不難理解爲何目前對於哪些技術屬於NGS會存在不一樣觀點了。
4、關於測序技術的代際:
上述話題牽涉出所謂的測序技術代際的問題。然而目前來看彷佛並無統一的認定。
若是按照上文對NGS的第一種理解,目前的代際劃分彷佛更多的用來區分Sanger 測序與非Sanger 測序。這兩類技術在原理和測序通量上都有存在較大差別,但也有相通之處。例如,不管是Sanger雙脫氧核苷酸測序,仍是高通量測序中的邊合成邊測序技術,或者是基於鏈接反應的測序,其原理都依賴核苷酸的聚合反應。
目前測序儀代際劃分的分歧點主要圍繞「二代測序」和「三代測序」技術。
「三代測序」這種提法出現於2008~2009年,當時主要是指有別於NGS的新型測序技術。一些學者認爲單分子測序、實時測序以及核心方法有別於已有技術的方法,應是三代測序技術的定義性特徵。目前,三代測序一般是指無需DNA擴增的單分子測序技術4。這種技術從原理與特色來看,有其自身優點(好比測序可以得到較長的讀長,有望解決單倍體基因組組裝和結構變異識別),是測序技術發展的重要思路。
有學者指出,目前測序技術代際劃分,也許更多的是出於商業上的考慮,由於人們一般習慣性的認爲技術代際升級表明了技術的演化。例如,Pacific BioSciences 公司在其發表的論文中,將單分子實時測序技術與NGS進行了區分,被納入三代測序技術8,其用意是不言而喻的。
單分子測序技術早在2003年就有概念性的論文發表9。2008年,Helicos BioSciences推出了第一臺單分子測序儀,隨後Pacific BioSciences與Oxford Nanopore也推出了各自商業化的測序儀。不過,也許是因爲單分子測序對技術體系要求更高,這項技術的發展遠不如當初人們預想得那般迅猛,直至今日還沒有達到NGS這樣的市場規模。這期間,Helicos BioScience已於2012年破產,儘管其技術符合目前對三代測序技術的界定。
隨着更多的應用,單分子技術也陸續暴露出一些技術問題。例如,在近期的一篇論文中,研究人員對利用長讀長測序技術組裝的人類基因組進行分析,發現與短讀長組裝相比,長讀長組裝的蛋白編碼區域含有更多的錯誤10。儘管有學者指出,新的生物信息學工具已經可以改善納米孔測序的組裝結果,有望從Oxford Nanopore和PacBio的測序數據中得到高質量的序列11。可是,真正的長讀長技術,只有達到或超越現有技術的性能和準確度時,纔有實用意義。
從測序技術應用角度來看,某些應用也許並不須要長讀長的單分子測序技術。例如,基於外周血遊離DNA測序的無創產前檢測,因目標DNA自己就是一百多個鹼基的短片斷,採用NGS就可以比較好的進行檢測與分析,且成本也在逐漸降低。此外,經過一些間接技術手段,好比華大智造近期推出的stLFR測序12,也可以在全基因組範圍內提供基因組長片斷信息,包括分型、突變及基因組結構變異。
單分子測序技術從原理上具有潛力與優點,值得進一步研發完善。可是將來可否達到預期的市場規模,甚至成爲主流測序技術,還須要通過實踐檢驗。技術發展代際內的升級相對比較頻繁,而代際間的升級則相對緩慢,只有核心原理有創新而且跨越式超越前一代的技術,也許才更適合被定義爲新一代技術。
總之,目前測序技術代際劃分較爲模糊,且測序技術目前仍處於快速發展中。其中,SANGER與 NGS均引領了基因組技術的革命,推進了基因組學科技進步。前者爲人類基因計劃(HGP)作出了主要貢獻,目前仍在是不少生物學與醫學實驗室的常規技術;後者則是當前基因組研究與應用的主流技術,直接爲基因組測序的普遍應用掃清了經濟上的障礙,使其不只能更好的服務於科研,也正在成爲精準醫學以及其餘應用領域的重要工具。單分子技術則是測序技術發展的重要方向,開始嶄露頭角,但成熟與完善尚需時日。以上這些測序技術,均有各自的特色,也有其適合的應用範圍與應用場景。
附筆:
寫這篇小文的初衷,是近期由於有朋友提出過此類問題,也有人常將測序技術類比IT技術的發展。所以在這裏分享本身的觀點,也指望與持不一樣意見的朋友交流探討。
特別感謝兩位曾經參與過水稻基因組計劃等早期基因組大項目的同事張建國博士與李勝霆博士,在春節假期期間分享了各自的觀點,並協助完善本文。
目前測序技術的代際劃分並無統一的認定。即便一我的,其觀點也會隨時間與認知的改變而發生某些變化。在2008年先後,咱們單位的NGS平臺剛剛進入規模化穩定運行階段。也正是那個時候,出現了「三代技術」。業內很多人都認爲這類單分子技術很快將取代NGS。但事實並不是如此。我曾經的觀點認爲單分子測序技術屬於三代技術,而目前則傾向於將其納入NGS。
關於測序技術的代際,能夠看看IT的代際。百度上是這樣劃分的:
第一代計算機被稱爲電子管計算機,第二代計算機被稱爲晶體管計算機,第三代計算機成爲中小規模集成電路計算機,第四代計算機成爲大規模和超大規模集成電路計算機,第五代計算機,指具備人工智能的新一代計算機。
IT的代際劃分主要源自技術原理的革新(第五代感受主要是軟件上的革新),是認識計算機發展史和技術原理的須要,具備客觀存在的價值。新一代在性能上全面超越前一代。
從認識論的角度來說,你們習慣於根據技術劃分代際,代際升級表明了技術的演化。只有核心原理新而且跨越式超越前一代的技術才能被稱爲新一代。新一代的出現首先是從技術原理上提出,有但願和潛力超越現有技術,而後從商業角度宣傳,有一些最終行不通的被淘汰,能發展成熟超越前一代的纔會真正成爲新一代。也有可能方向是對的,可是技術暫時跟不上,會經歷曲折的發展。這種代際認識在回顧歷史的時候最清楚。