三代基因組測序技術原理簡介

 

考慮到cnblog不適合基因組領域這種類型的文章, 最終,我本身開通了公衆號:鹼基礦工,歡迎感興趣的同窗關注!併發

也能夠關注個人知乎:https://www.zhihu.com/people/yellowtree/activities spa

2018年1月修改:這篇文章寫於2013年,首發在cnblog上,目前已經比較舊了。我從新在WGS系列中對其進行重寫,建議移步到這裏設計

 


 

  摘要:從1977年第一代DNA測序技術(Sanger法)1,發展至今三十多年時間,測序技術已取得了至關大的發展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長。雖然就當前形勢看來第二代短讀長測序技術在全球測序市場上仍然佔有着絕對的優點位置,但第三和第四代測序技術也已在這一兩年的時間中快速發展着。測序技術的每一次變革,也都對基因組研究,疾病醫療研究,藥物研發,育種等領域產生巨大的推進做用。在這裏我主要對當前的測序技術以及它們的測序原理作一個簡單的小結。3d

圖1:測序技術的發展歷程blog

  生命體遺傳信息的快速得到對於生命科學的研究有着十分重要的意義。以上(圖1)所描述的是自沃森和克里克在1953年創建DNA雙螺旋結構以來,整個測序技術的發展歷程。ci

第一代測序技術開發

  第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發明的化學法(鏈降解). 並在1977年,桑格測定了第一個基因組序列,是噬菌體X174的,全長5375個鹼基1。自此,人類得到了窺探生命遺傳差別本質的能力,並以此爲開端步入基因組學時代。研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首我的類基因組圖譜就是以改進了的Sanger法爲其測序基礎,Sanger法核心原理是:因爲ddNTP的2’和3’都不含羥基,其在DNA的合成過程當中不能造成磷酸二酯鍵,所以能夠用來中斷DNA合成反應,在4個DNA合成反應體系中分別加入必定比例帶有放射性同位素標記的ddNTP(分爲:ddATP,ddCTP,ddGTP和ddTTP),經過凝膠電泳和放射自顯影后能夠根據電泳帶的位置肯定待測分子的DNA序列(圖2)。這個網址爲sanger測序法制做了一個小短片,形象而生動。get

  值得注意的是,就在測序技術起步發展的這一時期中,除了Sanger法以外還出現了一些其餘的測序技術,如焦磷酸測序法、連接酶法等。其中,焦磷酸測序法是後來Roche公司454技術所使用的測序方法2–4,而鏈接酶測序法是後來ABI公司SOLID技術使用的測序方法2,4,但他們的共同核心手段都是利用了Sanger1中的可中斷DNA合成反應的dNTP。數據分析

 

圖2:Sanger法測序原理it

  第二代測序技術

  總的說來,第一代測序技術的主要特色是測序讀長可達1000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規模的應用。於是第一代測序技術並非最理想的測序方法。通過不斷的技術開發和改進,以Roche公司的454技術、illumina公司的Solexa,Hiseq技術和ABI公司的Solid技術爲標記的第二代測序技術誕生了。第二代測序技術大大下降了測序成本的同時,還大幅提升了測序速度,而且保持了高準確性,之前完成一我的類基因組的測序須要3年時間,而使用二代測序技術則僅僅須要1周,但在序列讀長方面比起第一代測序技術則要短不少。表1和圖3對第一代和第二代測序技術各自的特色以及測序成本做了一個簡單的比較5,如下我將對這三種主要的第二代測序技術的主要原理和特色做一個簡單的介紹。 

 

圖3. 測序成本的變化

  1. Illumine

  Illumina公司的Solexa和Hiseq應該說是目前全球使用量最大的第二代測序機器,這兩個系列的技術核心原理是相同的2,4。這兩個系列的機器採用的都是邊合成邊測序的方法,它的測序過程主要分爲如下4步,如圖4.

     (1)DNA待測文庫構建

  利用超聲波把待測的DNA樣本打斷成小片斷,目前除了組裝以外和一些其餘的特殊要求以外,主要是打斷成200-500bp長的序列片斷,並在這些小片斷的兩端添加上不一樣的接頭,構建出單鏈DNA文庫。

     (2)Flowcell

  Flowcell是用於吸附流動DNA片斷的槽道,當文庫建好後,這些文庫中的DNA在經過flowcell的時候會隨機附着在flowcell表面的channel上。每一個Flowcell有8個channel,每一個channel的表面都附有不少接頭,這些接頭能和建庫過程當中加在DNA片斷兩端的接頭相互配對(這就是爲何flowcell能吸附建庫後的DNA的緣由),並能支持DNA在其表面進行橋式PCR的擴增。

     (3)橋式PCR擴增與變性

  橋式PCR以Flowcell表面所固定的接頭爲模板,進行橋形擴增,如圖4.a所示。通過不斷的擴增和變性循環,最終每一個DNA片斷都將在各自的位置上集中成束,每個束都含有單個DNA模板的不少分拷貝,進行這一過程的目的在於實現將鹼基的信號強度放大,以達到測序所需的信號要求。 

(4)測序

  測序方法採用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有鹼基特異熒光標記的4中dNTP(如同Sanger測序法)。這些dNTP的3’-OH被化學方法所保護,於是每次只能添加一個dNTP。在dNTP被添加到合成鏈上後,全部未使用的遊離dNTP和DNA聚合酶會被洗脫掉。接着,再加入激發熒光所需的緩衝液,用激光激發熒光信號,並有光學設備完成熒光信號的記錄,最後利用計算機分析將光學信號轉化爲測序鹼基。這樣熒光信號記錄完成後,再加入化學試劑淬滅熒光信號並去除dNTP 3’-OH保護基團,以便能進行下一輪的測序反應。Illumina的這種測序技術每次只添加一個dNTP的特色可以很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是鹼基的替換,目前它的測序錯誤率在1%-1.5%之間,測序週期以人類基因組重測序爲例,30x測序深度大約爲1周。

 

 

圖4. Illumina測序流程

  1. Roche 454

Roche 454測序系統是第一個商業化運營二代測序技術的平臺。它的主要測序原理是(圖5 abc)2

(1)DNA文庫製備

  454測序系統的文件構建方式和illumina的不一樣,它是利用噴霧法將待測DNA打斷成300-800bp長的小片斷,並在片斷兩端加上不一樣的接頭,或將待測DNA變性後用雜交引物進行PCR擴增,鏈接載體,構建單鏈DNA文庫(圖5a)。

(2)Emulsion PCR (乳液PCR,實際上是一個注水到油的獨特過程)

454固然DNA擴增過程也和illumina的大相徑庭,它將這些單鏈DNA結合在水油包被的直徑約28um的磁珠上,並在其上面孵育、退火。

  乳液PCR最大的特色是能夠造成數目龐大的獨立反應空間以進行DNA擴增。其關鍵技術是「注水到油」(水包油),基本過程是在PCR反應前,將包含PCR全部反應成分的水溶液注入到高速旋轉的礦物油表面,水溶液瞬間造成無數個被礦物油包裹的小水滴。這些小水滴就構成了獨立的PCR反應空間。理想狀態下,每一個小水滴只含一個DNA模板和一個磁珠。

  這些被小水滴包被的磁珠表面含有與接頭互補的DNA序列,所以這些單鏈DNA序列可以特異地結合在磁珠上。同時孵育體系中含有PCR反應試劑,因此保證了每一個與磁珠結合的小片斷都能獨立進行PCR擴增,而且擴增產物仍能夠結合到磁珠上。當反應完成後,能夠破壞孵育體系並將帶有DNA的磁珠富集下來。進過擴增,每一個小片斷都將被擴增約100萬倍,從而達到下一步測序所要求的DNA量。

(3)焦磷酸測序

  測序前須要先用一種聚合酶和單鏈結合蛋白處理帶有DNA的磁珠,接着將磁珠放在一種PTP平板上。這種平板上特製有許多直徑約爲44um的小孔,每一個小孔僅能容納一個磁珠,經過這種方法來固定每一個磁珠的位置,以便檢測接下來的測序反應過程。  

  測序方法採用焦磷酸測序法,將一種比PTP板上小孔直徑更小的磁珠放入小孔中,啓動測序反應。測序反應以磁珠上大量擴增出的單鏈DNA爲模板,每次反應加入一種dNTP進行合成反應。若是dNTP能與待測序列配對,則會在合成後釋放焦磷酸基團。釋放的焦磷酸基團會與反應體系中的ATP硫酸化學酶反應生成ATP。生成的ATP和熒光素酶共同氧化使測序反應中的熒光素分子併發出熒光,同時由PTP板另外一側的CCD照相機記錄,最後經過計算機進行光信號處理而得到最終的測序結果。因爲每一種dNTP在反應中產生的熒光顏色不一樣,所以能夠根據熒光的顏色來判斷被測分子的序列。反應結束後,遊離的dNTP會在雙磷酸酶的做用降低解ATP,從而致使熒光淬滅,以便使測序反應進入下一個循環。因爲454測序技術中,每一個測序反應都在PTP板上獨立的小孔中進行,於是能大大下降相互間的干擾和測序誤差。454技術最大的優點在於其能得到較長的測序讀長,當前454技術的平均讀長可達400bp,而且454技術和illumina的Solexa和Hiseq技術不一樣,它最主要的一個缺點是沒法準確測量同聚物的長度,如當序列中存在相似於PolyA的狀況時,測序反應會一次加入多個T,而所加入的T的個數只能經過熒光強度推測得到,這就有可能致使結果不許確。也正是因爲這一緣由,454技術會在測序過程當中引入插入和缺失的測序錯誤。 

 

圖5. Roche 454測序流程

 

  1. Solid技術

Solid測序技術是ABI公司於2007年開始投入用於商業測序應用的儀器。它基於鏈接酶法,即利用DNA鏈接酶在鏈接過程之中測序(圖6)2,4。它的原理是:

 

圖6-a. Solid測序技術

    (1)DNA文庫構建

                片斷打斷並在片斷兩端加上測序接頭,鏈接載體,構建單鏈DNA文庫。

           (2)Emulsion PCR

  Solid的PCR過程也和454的方法相似,一樣採用小水滴emulsion PCR,但這些微珠比起454系統來講則要小得多,只有1um。在擴增的同時對擴增產物的3’端進行修飾,這是爲下一步的測序過程做的準備。3’修飾的微珠會被沉積在一塊玻片上。在微珠上樣的過程當中,沉積小室將每張玻片分紅1個、4個或8個測序區域(圖6-a)。Solid系統最大的優勢就是每張玻片能容納比454更高密度的微珠,在同一系統中輕鬆實現更高的通量。

           (3)鏈接酶測序

  這一步是Solid測序的獨特之處。它並無採用之前測序時所經常使用的DNA聚合酶,而是採用了鏈接酶。Solid鏈接反應的底物是8鹼基單鏈熒光探針混合物,這裏將其簡單表示爲:3’-XXnnnzzz-5’。鏈接反應中,這些探針按照鹼基互補規則與單鏈DNA模板鏈配對。探針的5’末端分別標記了CY五、Texas Red、CY三、6-FAM這4種顏色的熒光染料(圖6-a)。這個8鹼基單鏈熒光探針中,第1和第2位鹼基(XX)上的鹼基是肯定的,並根據種類的不一樣在6-8位(zzz)上加上了不一樣的熒光標記。這是Solid的獨特測序法,兩個鹼基肯定一個熒光信號,至關於一次能決定兩個鹼基。這種測序方法也稱之爲兩鹼基測序法。當熒光探針可以與DNA模板鏈配對而鏈接上時,就會發出表明第1,2位鹼基的熒光信號,圖6-a和圖6-b中的比色版所表示的是第1,2位鹼基的不一樣組合與熒光顏色的關係。在記錄下熒光信號後,經過化學方法在第5和第6位鹼基之間進行切割,這樣就能移除熒光信號,以便進行下一個位置的測序。不過值得注意的是,經過這種測序方法,每次測序的位置都相差5位。即第一次是第一、2位,第二次是第六、7位……在測到末尾後,要將新合成的鏈變性,洗脫。接着用引物n-1進行第二輪測序。引物n-1與引物n的區別是,兩者在與接頭配對的位置上相差一個鹼基(圖6-a. 8)。也便是,經過引物n-1在引物n的基礎上將測序位置往3’端移動一個鹼基位置,於是就能測定第0、1位和第五、6位……第二輪測序完成,依此類推,直至第五輪測序,最終能夠完成全部位置的鹼基測序,而且每一個位置的鹼基均被檢測了兩次。該技術的讀長在2×50bp,後續序列拼接一樣比較複雜。因爲雙次檢測,這一技術的原始測序準確性高達99.94%,而15x覆蓋率時的準確性更是達到了99.999%,應該說是目前第二代測序技術中準確性最高的了。但在熒光解碼階段,鑑於其是雙鹼基肯定一個熒光信號,於是一旦發生錯誤就容易產生連鎖的解碼錯誤。

 

圖6-b. Solid測序技術

第三代測序技術

  測序技術在近兩三年中又有新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies納米孔單分子測序技術,被稱之爲第三代測序技術。與前兩代相比,他們最大的特色就是單分子測序,測序過程無需進行PCR擴增。

  其中PacBio SMRT技術其實也應用了邊合成邊測序的思想5,並以SMRT芯片爲測序載體。基本原理是: DNA聚合酶和模板結合,4色熒光標記 4 種鹼基(便是dNTP),在鹼基配對階段,不一樣鹼基的加入,會發出不一樣光,根據光的波長與峯值可判斷進入的鹼基類型。同時這個 DNA 聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其形成的損傷所影響。PacBio SMRT技術的一個關鍵是怎樣將反應信號與周圍遊離鹼基的強大熒光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的不少密集小孔。小孔直徑有考究,若是直徑大於微波波長,能量就會在衍射效應的做用下穿透面板而泄露出來,從而與周圍小孔相互干擾。若是孔徑小於波長,能量不會輻射到周圍,而是保持直線狀態(光衍射的原理),從而可起保護做用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔, 即 ZMW(零模波導孔),外徑 100多納米,比檢測激光波長小(數百納米),激光從底部打上去後不能穿透小孔進入上方溶液區,能量被限制在一個小範圍(體積20X 10-21 L)裏,正好足夠覆蓋須要檢測的部分,使得信號僅來自這個小反應區域,孔外過多遊離核苷酸單體依然留在黑暗中,從而實現將背景降到最低。另外,能夠經過檢測相鄰兩個鹼基之間的測序時間,來檢測一些鹼基修飾狀況,既若是鹼基存在修飾,則經過聚合酶時的速度會減慢,相鄰兩峯之間的距離增大,能夠經過這個來之間檢測甲基化等信息(圖7)。SMRT技術的測序速度很快,每秒約10個dNTP。可是,同時其測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),達到15%,但好在它的出錯是隨機的,並不會像第二代測序技術那樣存在測序錯誤的偏向,於是能夠經過屢次測序來進行有效的糾錯。

 

圖7.PacBio SMRT測序原理

  Oxford Nanopore Technologies公司所開發的納米單分子測序技術與以往的測序技術皆不一樣,它是基於電信號而不是光信號的測序技術5。該技術的關鍵之一是,他們設計了一種特殊的納米孔,孔內共價結合有分子接頭。當DNA鹼基經過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不一樣的),靈敏的電子設備檢測到這些變化從而鑑定所經過的鹼基(圖8)。

  該公司在去年基因組生物學技術進展年會(AGBT)上推出第一款商業化的納米孔測序儀,引發了科學界的極大關注。納米孔測序(和其餘第三代測序技術)有望解決目前測序平臺的不足,納米孔測序的主要特色是:讀長很長,大約在幾十kb,甚至100 kb;錯誤率目前介於1%至4%,且是隨機錯誤,而不是彙集在讀取的兩端;數據可實時讀取;通量很高(30x人類基因組有望在一天內完成);起始DNA在測序過程當中不被破壞;以及樣品製備簡單又便宜。理論上,它也能直接測序RNA。

  納米孔單分子測序計算還有另外一大特色,它可以直接讀取出甲基化的胞嘧啶,而沒必要像傳統方法那樣對基因組進行bisulfite處理。這對於在基因組水平直接研究表觀遺傳相關現象有極大的幫助。而且改方法的測序準確性可達99.8%,並且一旦發現測序錯誤也能較容易地進行糾正。但目前彷佛尚未應用該技術的相關報道。

 

圖8. 納米孔測序

 

  其餘測序技術

  目前還有一種基於半導體芯片的新一代革命性測序技術——Ion Torrent6。該技術使用了一種佈滿小孔的高密度半導體芯片, 一個小孔就是一個測序反應池。當DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時,會釋放出一個氫離子,反應池中的PH發生改變,位於池下的離子感覺器感覺到H+離子信號,H+離子信號再直接轉化爲數字信號,從而讀出DNA序列(圖9)。這一技術的發明人同時也是454測序技術的發明人之一——Jonathan Rothberg,它的文庫和樣本製備跟454技術很像,甚至能夠說就是454的翻版,只是測序過程當中不是經過檢測焦磷酸熒光顯色,而是經過檢測H+信號的變化來得到序列鹼基信息。Ion Torrent相比於其餘測序技術來講,不須要昂貴的物理成像等設備,所以,成本相對來講會低,體積也會比較小,同時操做也要更爲簡單,速度也至關快速,除了2天文庫製做時間,整個上機測序可在2-3.5小時內完成,不過整個芯片的通量並不高,目前是10G左右,但很是適合小基因組和外顯子驗證的測序。    

  

           

圖9. Ion Torrent

 

  小結

  以上,對各代測序技術的原理作了簡要的闡述,這三代測序技術的特色比較彙總在如下表1和表2中。其中測序成本,讀長和通量是評估該測序技術先進與否的三個重要指標。第一代和第二代測序技術除了通量和成本上的差別以外,其測序核心原理(除Solid是邊鏈接邊測序以外)都是基於邊合成邊測序的思想。第二代測序技術的優勢是成本較之一代大大降低,通量大大提高,但缺點是所引入PCR過程會在必定程度上增長測序的錯誤率,而且具備系統偏向性,同時讀長也比較短。第三代測序技術是爲了解決第二代所存在的缺點而開發的,它的根本特色是單分子測序,不須要任何PCR的過程,這是爲了能有效避免因PCR偏向性而致使的系統錯誤,同時提升讀長,並要保持二代技術的高通量,低成本的優勢。

            表1:測序技術的比較

X

公司

平臺名稱

測序方法

檢測方法

大約讀長(鹼基數)

優勢

相對侷限性

第一代

ABI/生命技術公司

3130xL-3730xL

桑格-毛細管電泳測序法

熒光/光學

600-1000

高讀長,準確度一次性達標率高,能很好處理重複序列和多聚序列

通量低;樣品製備成本高,使之難以作大量的平行測序

第一代

貝克曼

GeXP遺傳分析系統

桑格-毛細管電泳測序法

熒光/光學

600-1000

高讀長,準確度一次性達標率高,能很好處理重複序列和多聚序列;易小型化

通量低;單個樣品的製備成本相對較高

第二代

Roche/454

基因組測序儀FLX系統

焦磷酸測序法

光學

230-400

在第二代中最高讀長;比第一代的測序通量大

樣品製備較難;難於處理重複和同種鹼基多聚區域;試劑沖洗帶來錯誤累積;儀器昂貴

第二代

Illumina

HiSeq2000,HiSeq2500/MiSeq

可逆鏈終止物和合成測序法

熒光/光學

2x150

很高測序通量

儀器昂貴;用於數據刪節和分析的費用很高

第二代

ABI/Solid

5500xlSolid系統

鏈接測序法

熒光/光學

25-35

很高測序通量;在廣爲接受的幾種第二代平臺中,所要拼接出人類基因組的試劑成本最低

測序運行時間長;讀長短,形成成本高,數據分析困難和基因組拼接困難;儀器昂貴

第二代

赫利克斯

Heliscope

單分子合成測序法

熒光/光學

25-30

高通量;在第二代中屬於單分子性質的測序技術

讀長短,推高了測序成本,下降了基因組拼接的質量;儀器很是昂貴

第三代

太平洋生物科學公司

PacBio RS

實時單分子DNA測序

熒光/光學

~1000

高平均讀長,比第一代的測序時間下降;不須要擴增;最長單個讀長接近3000鹼基

並不能高效地將DNA聚合酶加到測序陣列中;準確性一次性達標的機會低(81-83%);DNA聚合酶在陣列中降解;整體上每一個鹼基測序成本高(儀器昂貴);

第三代

全基因組學公司

GeXP遺傳分析系統

複合探針錨雜交和鏈接技術

熒光/光學

10

在第三代中通量最高;在全部測序技術中,用於拼接一我的基因組的試劑成本最低;每一個測序步驟獨立,使錯誤的累積變得最低

低讀長; 模板製備妨礙長重複序列區域測序;樣品製備費事;尚無商業化供應的儀器

第三代

Ion Torrent/生命技術公司

我的基因組測序儀(PGM)

 合成測序法

以離子敏感場效應晶體管檢測pH值變化

100-200

對核酸鹼基的摻入可直接測定;在天然條件下進行DNA合成(不須要使用修飾過的鹼基)

一步步的洗脫過程可致使錯誤累積;閱讀高重複和同種多聚序列時有潛在困難;

第三代

牛津納米孔公司

 gridION

納米孔外切酶測序

電流

還沒有定量

有潛力達到高讀長;能夠成本生產納米孔;無需熒光標記或光學手段

切斷的核苷酸可能被讀錯方向;難於生產出帶多重平行孔的裝置

  

       表2:主流測序機器的成本測序比較

  如下圖10展現了當前全球測序儀的分佈狀況。圖中的幾個熱點區主要分佈在中國的深圳(主要是華大),南歐,西歐和美國。 

圖10. 測序儀全球分佈http://omicsmaps.com/#

 

  參考文獻 

1.    Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).

2.    Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).

3.    Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).

4.    Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).

5.    Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).

6.    Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011). 

相關文章
相關標籤/搜索