1三、基因組的拼接原理(轉載沈夢圓的博客)

最近學習了一下基因組的拼接原理,如下是個人學習筆記和一些思考。基因組的拼接原理是高通量測序技術的基礎知識吧,我我的認爲即便不作基 因組拼接工做,也能夠學習一下幾個主流拼接軟件的算法和原理。我主要是學習了兩個網上教程,其教程出處爲https://github.com/ TGAC/361Division/tree/master/de_novo_2016https://github.com/ lexnederbragt/INF-BIO9120_fall2013_de_novo_assembly/tree/master/presentationsgit

1 2

拼接是個啥?

A hierarchical data structure that maps the sequence data to a putative reconstruction of the target.(Miller et al 2010,Genomics 95(6):315-327) 基因組拼接能夠類比成一本書被碎紙機碎個稀巴爛,而後用膠水把他們一片片給拼回去的過程。 3 4github

  • 拼接的過程就像一個黑箱處理過程,reads序列輸入,通過拼接黑盒,輸出就是基因組拼接好的結果。正確的拼接應該是The right motifs,the correct number of times,in correct order and position。我我的認爲是儘量得還原真實的基因組是拼接的終極目的。算法

  • 另外,拼接的算法分爲試探型和窮舉型兩種,通常都用試探型算法,由於它更好更快更簡單(在絕大多數時候)。窮舉型算法侷限性強、運行速度 慢、召回率低,而且數據類型不盡相同,所以沒有很好的模型適合所有的數據類型。數據庫

  • 在拼接以前,咱們確保輸入的數據是去除接頭、污染等的good data,而且要大概知道拼接的原理。最後完成拼接後,要檢查拼接結果的可靠性和完整性。 5ide

測序技術

測序長度越長,覆蓋度越高,帶來的拼接結果也會越好。而且根據研究目的的不一樣,咱們使用不一樣測序技術,產生不一樣類型的數據,獲得不一樣的測序 信息。 6學習

拼接算法

None of which is assessed by length stats.ui

  • Overlap Layout Consensus 找到重疊區域而且定義他們是key。layout有點難度。這種方法tracks每一條read。Consensus是由reads構建而成的。 7編碼

  • De Bruijn Graphs 8設計

  • OLC VS DE bruijn 9 10component

拼接實驗前

  • 有時候一次測序拼接結果可能很難達到預設的拼接目標,可能須要屢次補測樣品來完善拼接結果。咱們在測序拼接前,須要知道所研究對象的基因 組的大小、倍型、雜合性、GC含量、是否有污染物/ 共生者、數據集的類型、是否線粒體仍是葉綠體的細胞器基因組。其實這些內容在測序以前就須要考慮了,下面一些點進行進行較爲詳細的介紹 :

(1)基因組大小的獲取關係到對之後組裝結果的大小的正確與否判斷;基因組太大(>10Gb),可能會超出了目前denovo組裝基因組軟件的對機器存 的要求,從客觀條件上講是沒法實現組裝的。通常物種的基因組大小能夠從公共數據庫查到。若是沒有搜錄,須要考慮經過實驗(流式細胞儀福爾根 染色/定量pcr/)或Kmer估計法來得到基因組大小。

(2)雜合度對基因組組裝的影響主要體如今不能合併姊妹染色體,雜合度高的區域,會把兩條姊妹染色單體都組裝出來,從而形成組裝的基因組偏 大於實際的基因組大小。通常是經過SSR在測序親本的子代中檢查SSR的多態性。雜合度若是高於0.5%,則認爲組裝有必定難度。雜合度高於1%則很難 組裝出來。雜和度估計通常經過kmer分析來作,下降雜合度能夠經過不少代近交來實現。雜合度高,並非說組裝不出來,而是說,裝出來的序列不 適用於後續的生物學分析。好比拷貝數、基因完整結構。

(3)隨着測序對質量要求愈來愈高和相關技術的逐漸成熟,遺傳圖譜也快成了denovo基因組的必須組成。

(4)實驗設計須要考慮的問題:1.明確咱們的生物學問題;2.設計數據處理方案;3.設置實驗條件和生物/技術重複數;4.選擇測序平臺和覆蓋度。

11 12 13 14 15

爲啥拼接挺難的

  • 重複序列
  • 二倍體
  • 多倍性
  • 可供選擇的軟件多 16

兩個拼接軟件

  • A modern assembler-SOAPdenovo2 17
  • Trinity運行的原理和過程 1 Trinity 如何運做 a. 序列延伸 (inchworm) ——蟲子 將 reads切爲 k-mers (k bp長度的短片斷) 拆分K-mer的目的:節省內存,下降測序錯誤對拼接的影響;利用Overlap關係對k-mers進行延伸 ( 貪婪算法);輸出全部的序列 (「 contigs」)。 b. 構建 de Bruijn graph (chrysalis)—— 成蛹 聚類全部類似區域大於1kbp的 contigs;構圖 (區分不一樣的 「components」); 將reads比對回 components,進行驗證 c. 解圖,列舉轉錄本 (butterfly)——化蝶 拆分graph 爲線性序列;使用reads以及 pairs關係消除錯誤序列。 2 組裝質量評估與去冗餘 d. 組裝質量: 組裝完整性、組裝準確性、後續定量準確性、組裝冗餘度 N50長度,能夠初步評估組裝質量;但並不是越長越好,應該參照相關的研究(同物種或近緣種);經過統計Unigene對近緣種編碼基因的覆蓋度分, 也能夠從總體評估組裝質量。 3 註釋與其餘

組裝評估

(1) kmer spectra,可用軟件KAT、CEGMA; 18 (2)使用生物學知識去進行評估驗證

  • Direct experimental evidence: the reads、Genome size、ploidy、GC content、Symbionts、Plastids、ESTs、cDNAs、peptides、genome walking
  • Indirect experimental evidence: genomes in general(Genes! (They have structure,Repeats),Chromosome macrostructure ,(circular?, number, telomeres, …))、other species(Close relatives: proteins, transcripts, genomes; Distant relatives: single-copy genes,
phylogeny, HGT)

偏差和質控

樣本的準備和建庫:樣品未純化,PCR誤差(沒有化學反應是perfect、complete的) 19 20 21

N50並非那麼可靠、敏感,咱們要注意。 22 23

其餘參考資料

https://www.cbcb.umd.edu/research/assembly_primer

相關文章
相關標籤/搜索