解析Illumina+PacBio組裝策略

時間 2019-12-04

標籤解析 illumina+pacbio illumina pacbio 組裝策略简体版

原文原文鏈接

解析Illumina+PacBio組裝策略

(2016-12-08 13:21:58)

基於Illumina和PacBio平臺的「二加三」組裝策略，巧妙的融合了PacBio平臺超長讀長、無PCR擴增和Illumina平臺成本低等優點，成爲目前基因組研究最經濟有效的方式。那麼問題來了，這個「二加三」策略到底是如何利用兩種平臺測序數據的？是以二代數據爲主仍是以三代數據爲主？今天，小編將爲您揭曉答案。app

方案一：以三代數據爲主，經過三代數據進行組裝，使用二代數據對三代數據進行糾錯。dom

這是目前大部分已發表的文章使用的組裝策略。因爲PacBio第三代測序成本稍高但測序數據可輕鬆跨越複雜基因組區域，而Illumina平臺數據穩定可靠，重複性強，數據質量高，成本低，經過此方案結合使用兩種平臺測序數據，不只保證了組裝結果的準確性，還充分利用了PacBio超長讀長的優點，這將十分有利於動植物基因組高GC含量序列及重複序列單元的拼接組裝。spa

案例解析一：大猩猩蘇茜基因組組裝3d

第一次大猩猩基因組組裝以一隻名爲Kamilah的雌性西部低地大猩猩，採用短讀長和Sanger測序數據組裝，發表於2012年的《Nature》雜誌。2016年4月發表的蘇茜基因組組裝文章，採用以PacBio測序爲主的「二加三」組裝策略，極大的提高了組裝效果，讓大猩猩又火了一把。blog

兩個版本大猩猩基因組比較圖片

文章發表時間ci	組裝策略資源	Contig N50get	Scaffold N50it
2012	Illumina+Sanger	11.8Kb	914Kb
2016	PacBio+Illumina	9.6Mb	23.1Mb

組裝流程

Step 1: PacBio RS II 平臺，P6-C4試劑，20Kb文庫，74.8x測序深度，組裝後的基因組大小爲3.1Gb，其中contig N50:9.6Mb，scaffold N50:23.1Mb，大多較短的contigs（＜100 Kb）包含着絲粒或端粒衛星序列或摺疊的片斷重複。其組裝連續性相對於最初的大猩猩組裝提高819倍，相對於最近的組裝結果提高180倍，而且填補了94%的gap；

Step2: Illumina HiSeq平臺，對蘇茜和另外6只大猩猩進行全基因組測序，經過對比進行錯誤矯正，並進行錯誤評估，從而減小偏差，保證組裝的準確率。

大猩猩基因組組裝示意圖

案例解析二：復活草基因組組裝

復活草極其耐旱，它具備經過脫水變成徹底乾燥、同時保持在有水時再復活的能力。核型爲2n = 2x = 18，基因組大小約245Mb。得到高度耐旱物種的基因組草圖可有效推進做物改良，爲植物比較基因組學研究團隊提供有價值的資源。

組裝流程

Step 1: PacBio RS II 平臺，P6-C4試劑盒，15-20Kb文庫，32個SMRT cells，72×測序深度，組裝得到650 Contigs，Contig N50達到2.4Mb；

Step 2：Illumina HiSeq平臺，570bp、1kb、3kb文庫，200X測序深度，評估PacBio組裝的錯誤率以及基因組的雜合度；

Step 3：BioNano Irys系統，構建基因組圖譜，對Contigs進行anchoring和scaffolding，最終組裝完成244Mb，即得到＞99.6%的基因組序列信息，Contig N50達到2.4Mb，Scaffold N50達到7.1Mb。

PacBio跨越復活草複雜區域

方案二：以二代數據爲主，使用二代數據組裝獲得Contig，而後使用三代數據進行Scaffolding 和Gapfilling。

因爲該方案還是以短讀長來進行基因組組裝，因此在組裝重複序列單元和複雜區域時，仍然難以實現完美組裝。可是該方案使用的三代數據較少，成本會有顯著下降。因此該方案適合基因組序列比較簡單、科研預算較少的研究者。

案例解析：蘋果基因組組裝

蘋果富含豐富的養分和風味，是世界四大水果之冠，高質量的蘋果基因組序列對於分子育種很是關鍵。做者採用以Illumina測序爲主的「二加三」組裝策略de novo測序和拼接，組裝完成蘋果參考基因組序列，並經過基因註釋分析發現，該品種基因組中的串聯重複序列達382 Mb，覆蓋了蘋果基因組的60%，因此若是單獨使用Illumina數據進行組裝，即便是高深度也沒法得到滿意的組裝效果。

技術路線

組裝流程

Step 1:Illumina HiSeq平臺，76 Gb（~102×）全基因組測序數據，組裝全長爲1.05 Gb，Contig N50 :534 bp，組裝效果受到雜合度和重複序列的影響，組裝效果較差；

Step 2:PacBio RS，21.7 Gb（~29×），632.4 Mb數據，結合Illumina數據組裝後，Contig N50 : 111,619 bp，覆蓋率達預估蘋果基因組（701 Mb）的90%。因爲PacBio平臺的使用，其Contig N50相比於以前發表的 16.1 kb提高了約6.9倍。

小結

不管是從組裝效果仍是發表文章狀況來看，以三代爲主的「二加三」組裝策略具備明顯優點。因此在科研經費充足的狀況下，小編建議優先選擇方案一進行基因組組裝，若是您的經費再容許，請加上BioNano測序數據，組裝效果和準確度可獲得顯著提高。

貝瑞和康做爲三代測序技術的領導者，同時擁有PacBio Sequel和BioNano平臺，而且Sequel v1.2.1試劑已經取得理想的數據產出，敬請關注後續相關報道。如需諮詢請聯繫當地銷售，或致電010-84409702/電子郵件sequence@berrygenomics.com。

參考文獻

1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.

2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.

3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。