最近學習了一下基因組的拼接原理,如下是個人學習筆記和一些思考。基因組的拼接原理是高通量測序技術的基礎知識吧,我我的認爲即便不作基 因組拼接工做,也能夠學習一下幾個主流拼接軟件的算法和原理。我主要是學習了兩個網上教程,其教程出處爲https://github.com/ TGAC/361Division/tree/master/de_novo_2016和https://github.com/ lexnederbragt/INF-BIO9120_fall2013_de_novo_assembly/tree/master/presentations。git
A hierarchical data structure that maps the sequence data to a putative reconstruction of the target.(Miller et al 2010,Genomics 95(6):315-327) 基因組拼接能夠類比成一本書被碎紙機碎個稀巴爛,而後用膠水把他們一片片給拼回去的過程。 github
拼接的過程就像一個黑箱處理過程,reads序列輸入,通過拼接黑盒,輸出就是基因組拼接好的結果。正確的拼接應該是The right motifs,the correct number of times,in correct order and position。我我的認爲是儘量得還原真實的基因組是拼接的終極目的。算法
另外,拼接的算法分爲試探型和窮舉型兩種,通常都用試探型算法,由於它更好更快更簡單(在絕大多數時候)。窮舉型算法侷限性強、運行速度 慢、召回率低,而且數據類型不盡相同,所以沒有很好的模型適合所有的數據類型。數據庫
在拼接以前,咱們確保輸入的數據是去除接頭、污染等的good data,而且要大概知道拼接的原理。最後完成拼接後,要檢查拼接結果的可靠性和完整性。 ide
測序長度越長,覆蓋度越高,帶來的拼接結果也會越好。而且根據研究目的的不一樣,咱們使用不一樣測序技術,產生不一樣類型的數據,獲得不一樣的測序 信息。 學習
None of which is assessed by length stats.ui
Overlap Layout Consensus 找到重疊區域而且定義他們是key。layout有點難度。這種方法tracks每一條read。Consensus是由reads構建而成的。 編碼
De Bruijn Graphs 設計
OLC VS DE bruijn component
(1)基因組大小的獲取關係到對之後組裝結果的大小的正確與否判斷;基因組太大(>10Gb),可能會超出了目前denovo組裝基因組軟件的對機器存 的要求,從客觀條件上講是沒法實現組裝的。通常物種的基因組大小能夠從公共數據庫查到。若是沒有搜錄,須要考慮經過實驗(流式細胞儀福爾根 染色/定量pcr/)或Kmer估計法來得到基因組大小。
(2)雜合度對基因組組裝的影響主要體如今不能合併姊妹染色體,雜合度高的區域,會把兩條姊妹染色單體都組裝出來,從而形成組裝的基因組偏 大於實際的基因組大小。通常是經過SSR在測序親本的子代中檢查SSR的多態性。雜合度若是高於0.5%,則認爲組裝有必定難度。雜合度高於1%則很難 組裝出來。雜和度估計通常經過kmer分析來作,下降雜合度能夠經過不少代近交來實現。雜合度高,並非說組裝不出來,而是說,裝出來的序列不 適用於後續的生物學分析。好比拷貝數、基因完整結構。
(3)隨着測序對質量要求愈來愈高和相關技術的逐漸成熟,遺傳圖譜也快成了denovo基因組的必須組成。
(4)實驗設計須要考慮的問題:1.明確咱們的生物學問題;2.設計數據處理方案;3.設置實驗條件和生物/技術重複數;4.選擇測序平臺和覆蓋度。
(1) kmer spectra,可用軟件KAT、CEGMA; (2)使用生物學知識去進行評估驗證
樣本的準備和建庫:樣品未純化,PCR誤差(沒有化學反應是perfect、complete的)
N50並非那麼可靠、敏感,咱們要注意。