基於Illumina和PacBio平臺的「二加三」組裝策略,巧妙的融合了PacBio平臺超長讀長、無PCR擴增和Illumina平臺成本低等優點,成爲目前基因組研究最經濟有效的方式。那麼問題來了,這個「二加三」策略到底是如何利用兩種平臺測序數據的?是以二代數據爲主仍是以三代數據爲主?今天,小編將爲您揭曉答案。app
方案一:以三代數據爲主,經過三代數據進行組裝,使用二代數據對三代數據進行糾錯。dom
這是目前大部分已發表的文章使用的組裝策略。因爲PacBio第三代測序成本稍高但測序數據可輕鬆跨越複雜基因組區域,而Illumina平臺數據穩定可靠,重複性強,數據質量高,成本低,經過此方案結合使用兩種平臺測序數據,不只保證了組裝結果的準確性,還充分利用了PacBio超長讀長的優點,這將十分有利於動植物基因組高GC含量序列及重複序列單元的拼接組裝。spa
案例解析一:大猩猩蘇茜基因組組裝3d
第一次大猩猩基因組組裝以一隻名爲Kamilah的雌性西部低地大猩猩,採用短讀長和Sanger測序數據組裝,發表於2012年的《Nature》雜誌。2016年4月發表的蘇茜基因組組裝文章,採用以PacBio測序爲主的「二加三」組裝策略,極大的提高了組裝效果,讓大猩猩又火了一把。blog
兩個版本大猩猩基因組比較圖片
文章發表時間ci |
組裝策略資源 |
Contig N50get |
Scaffold N50it |
2012 |
Illumina+Sanger |
11.8Kb |
914Kb |
2016 |
PacBio+Illumina |
9.6Mb |
23.1Mb |
組裝流程
Step 1: PacBio RS II 平臺,P6-C4試劑,20Kb文庫,74.8x測序深度,組裝後的基因組大小爲3.1Gb,其中contig N50:9.6Mb,scaffold N50:23.1Mb,大多較短的contigs(<100 Kb)包含着絲粒或端粒衛星序列或摺疊的片斷重複。其組裝連續性相對於最初的大猩猩組裝提高819倍,相對於最近的組裝結果提高180倍,而且填補了94%的gap;
Step2: Illumina HiSeq平臺,對蘇茜和另外6只大猩猩進行全基因組測序,經過對比進行錯誤矯正,並進行錯誤評估,從而減小偏差,保證組裝的準確率。
案例解析二:復活草基因組組裝
復活草極其耐旱,它具備經過脫水變成徹底乾燥、同時保持在有水時再復活的能力。核型爲2n = 2x = 18,基因組大小約245Mb。得到高度耐旱物種的基因組草圖可有效推進做物改良,爲植物比較基因組學研究團隊提供有價值的資源。
組裝流程
Step 1: PacBio RS II 平臺,P6-C4試劑盒,15-20Kb文庫,32個SMRT cells,72×測序深度,組裝得到650 Contigs,Contig N50達到2.4Mb;
Step 2:Illumina HiSeq平臺,570bp、1kb、3kb文庫,200X測序深度,評估PacBio組裝的錯誤率以及基因組的雜合度;
Step 3:BioNano Irys系統,構建基因組圖譜,對Contigs進行anchoring和scaffolding,最終組裝完成244Mb,即得到>99.6%的基因組序列信息,Contig N50達到2.4Mb,Scaffold N50達到7.1Mb。
PacBio跨越復活草複雜區域
方案二:以二代數據爲主,使用二代數據組裝獲得Contig,而後使用三代數據進行Scaffolding 和Gapfilling。
因爲該方案還是以短讀長來進行基因組組裝,因此在組裝重複序列單元和複雜區域時,仍然難以實現完美組裝。可是該方案使用的三代數據較少,成本會有顯著下降。因此該方案適合基因組序列比較簡單、科研預算較少的研究者。
案例解析:蘋果基因組組裝
蘋果富含豐富的養分和風味,是世界四大水果之冠,高質量的蘋果基因組序列對於分子育種很是關鍵。做者採用以Illumina測序爲主的「二加三」組裝策略de novo測序和拼接,組裝完成蘋果參考基因組序列,並經過基因註釋分析發現,該品種基因組中的串聯重複序列達382 Mb,覆蓋了蘋果基因組的60%,因此若是單獨使用Illumina數據進行組裝,即便是高深度也沒法得到滿意的組裝效果。
組裝流程
Step 1:Illumina HiSeq平臺,76 Gb(~102×)全基因組測序數據,組裝全長爲1.05 Gb,Contig N50 :534 bp,組裝效果受到雜合度和重複序列的影響,組裝效果較差;
Step 2:PacBio RS,21.7 Gb(~29×),632.4 Mb數據,結合Illumina數據組裝後,Contig N50 : 111,619 bp,覆蓋率達預估蘋果基因組(701 Mb)的90%。因爲PacBio平臺的使用,其Contig N50相比於以前發表的 16.1 kb提高了約6.9倍。
小結
不管是從組裝效果仍是發表文章狀況來看,以三代爲主的「二加三」組裝策略具備明顯優點。因此在科研經費充足的狀況下,小編建議優先選擇方案一進行基因組組裝,若是您的經費再容許,請加上BioNano測序數據,組裝效果和準確度可獲得顯著提高。
貝瑞和康做爲三代測序技術的領導者,同時擁有PacBio Sequel和BioNano平臺,而且Sequel v1.2.1試劑已經取得理想的數據產出,敬請關注後續相關報道。如需諮詢請聯繫當地銷售,或致電010-84409702/電子郵件sequence@berrygenomics.com。
參考文獻
1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.
2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.
3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.