三代基因組consensus:Minimap+miniasm組裝,racon+pilon糾錯

用Li Heng開發的Minimap+miniasm進行組裝,而後用racon+pilon進行糾錯。html

三代測序拼裝軟件,三代測序平臺 Nanopore Pacbio 產生的數據的一個共同點就是,讀長長,錯誤率高,在用於分析以前須要對數據進行特殊處理(consensus,糾錯),再進行拼裝任務,Liheng 開發的 Miniasm 能夠直接對未處理的長讀長序列進行快速拼裝,在對Miniasm拼裝的Contig序列進行拋光處理後會出現很多SNP/INDEL, Racon 可解決這個問題,Racon是一個基於minimap和miniasm的,構建一致性序列(consensus)的一款軟件,速度快是其特色。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件輸入格式,相對於 Quiver Nanopolish 通用性更高。ios

 

第一步:用minimap2,拿着80%~90%正確率的原始數據相互比對, 找序列之間的Overlap。git

 

第二步:找到Overlap,用miniasm進行組裝。github

 

第三步: 原始的組裝結果充滿了錯誤,因此須要進行糾錯。糾錯分爲兩種,一種是用三代自身數據,一種是用二代數據進行糾錯。固然這兩步都是須要的。工具

  首先用minimap2和racon對三代數據進行糾錯,通常迭代個三次就差很少。ui

  其次使用二代數據進行糾錯。二代數據雖然短,可是測序質量高,因此通常都要用它進行糾錯。推薦用30X PCR free的illuminia 測序數據。.net

    Step 1: 數據預處理,過濾低質量短讀,去接頭。工具不少,經常使用的是trimmomatic、cutadapter、 fastp(處理標準:平均質量高於Q30,對5‘端進行低質量鹼基刪除,保留大於100bp的短讀)htm

    Step2:用bwa 比對blog

    step3: 用pilon對比對後的BAM文件進行糾錯ci

 

參考來源:

https://blog.csdn.net/u012110870/article/details/82500726

http://ju.outofmemory.cn/entry/288897

http://wap.sciencenet.cn/blog-285393-1178834.html

相關文章
相關標籤/搜索