解析Illumina+PacBio組裝策略

解析Illumina+PacBio組裝策略

  (2016-12-08 13:21:58)
   

基於IlluminaPacBio平臺的二加三組裝策略,巧妙的融合了PacBio平臺超長讀長、無PCR擴增和Illumina平臺成本低等優點,成爲目前基因組研究最經濟有效的方式。那麼問題來了,這個二加三策略到底是如何利用兩種平臺測序數據的?是以二代數據爲主仍是以三代數據爲主?今天,小編將爲您揭曉答案。app

 

方案一:以三代數據爲主,經過三代數據進行組裝,使用二代數據對三代數據進行糾錯。dom

 

這是目前大部分已發表的文章使用的組裝策略。因爲PacBio第三代測序成本稍高但測序數據可輕鬆跨越複雜基因組區域,Illumina平臺數據穩定可靠,重複性強,數據質量高,成本低,經過此方案結合使用兩種平臺測序數據,不只保證了組裝結果的準確性,還充分利用了PacBio超長讀長的優點,這將十分有利於動植物基因組高GC含量序列及重複序列單元的拼接組裝。spa

 

案例解析一:大猩猩蘇茜基因組組裝3d

 

第一次大猩猩基因組組裝一隻名爲Kamilah的雌性西部低地大猩猩,採用短讀長和Sanger測序數據組裝,發表於2012年的《Nature》雜誌。20164月發表的蘇茜基因組組裝文章,採用以PacBio測序爲主的二加三組裝策略,極大的提高了組裝效果,讓大猩猩又火了一把。blog

兩個版本大猩猩基因組比較圖片

文章發表時間ci

組裝策略資源

Contig N50get

Scaffold N50it

2012

Illumina+Sanger

11.8Kb

914Kb

2016

PacBio+Illumina

9.6Mb

23.1Mb

 

 

組裝流程

Step 1: PacBio RS II 平臺,P6-C4試劑,20Kb文庫,74.8x測序深度,組裝後的基因組大小爲3.1Gb,其中contig N50:9.6Mbscaffold N50:23.1Mb,大多較短的contigs(<100 Kb)包含着絲粒或端粒衛星序列或摺疊的片斷重複。其組裝連續性相對於最初的大猩猩組裝提高819倍,相對於最近的組裝結果提高180倍,而且填補了94%gap

 

Step2: Illumina HiSeq平臺,對蘇茜和另外6只大猩猩進行全基因組測序,經過對比進行錯誤矯正,並進行錯誤評估,從而減小偏差,保證組裝的準確率。

解析Illumina+PacBio組裝策略

大猩猩基因組組裝示意圖

 

案例解析二:復活草基因組組裝

復活草極其耐旱,它具備經過脫水變成徹底乾燥、同時保持在有水時再復活的能力。核型爲2n = 2x = 18,基因組大小約245Mb。得到高度耐旱物種的基因組草圖可有效推進做物改良,爲植物比較基因組學研究團隊提供有價值的資源


組裝流程

Step 1: PacBio RS II 平臺,P6-C4試劑盒,15-20Kb文庫,32SMRT cells72×測序深度組裝得到650 ContigsContig N50達到2.4Mb

Step 2Illumina HiSeq平臺,570bp1kb3kb文庫,200X測序深度,評估PacBio組裝的錯誤率以及基因組的雜合度

Step 3BioNano Irys系統,構建基因組圖譜,對Contigs進行anchoringscaffolding,最終組裝完成244Mb,即得到>99.6%的基因組序列信息Contig N50達到2.4MbScaffold N50達到7.1Mb

 

                                                               解析Illumina+PacBio組裝策略

PacBio跨越復活草複雜區域

方案二:以二代數據爲主,使用二代數據組裝獲得Contig,而後使用三代數據進行Scaffolding Gapfilling

 

因爲該方案還是以短讀長來進行基因組組裝,因此在組裝重複序列單元和複雜區域時,仍然難以實現完美組裝。可是該方案使用的三代數據較少,成本會有顯著下降。因此該方案適合基因組序列比較簡單、科研預算較少的研究者。

 

案例解析:蘋果基因組組裝

蘋果富含豐富的養分和風味,是世界四大水果之冠,高質量的蘋果基因組序列對於分子育種很是關鍵。做者採用以Illumina測序爲主的二加三組裝策略de novo測序和拼接,組裝完成蘋果參考基因組序列,並經過基因註釋分析發現,該品種基因組中的串聯重複序列達382 Mb,覆蓋了蘋果基因組的60%,因此若是單獨使用Illumina數據進行組裝,即便是高深度也沒法得到滿意的組裝效果。

解析Illumina+PacBio組裝策略
技術路線 

組裝流程

Step 1:Illumina  HiSeq平臺,76 Gb~102×)全基因組測序數據,組裝全長爲1.05 GbContig N50 :534 bp,組裝效果受到雜合度和重複序列的影響,組裝效果較差

 

Step 2:PacBio RS21.7 Gb~29×),632.4 Mb數據,結合Illumina數據組裝後,Contig N50 : 111,619  bp,覆蓋率達預估蘋果基因組(701 Mb)的90%。因爲PacBio平臺的使用,其Contig N50相比於以前發表的 16.1 kb提高了約6.9倍。

 

小結

不管是從組裝效果仍是發表文章狀況來看,以三代爲主的二加三組裝策略具備明顯優點。因此在科研經費充足的狀況下,小編建議優先選擇方案一進行基因組組裝,若是您的經費再容許,請加上BioNano測序數據,組裝效果和準確度獲得顯著提高。

 

貝瑞和康做爲三代測序技術的領導者,同時擁有PacBio SequelBioNano平臺,而且Sequel v1.2.1試劑已經取得理想的數據產出,敬請關注後續相關報道。如需諮詢請聯繫當地銷售,或致電010-84409702/電子郵件sequence@berrygenomics.com

 

參考文獻

1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.

2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.

3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.

相關文章
相關標籤/搜索