用Li Heng開發的Minimap+miniasm進行組裝,而後用racon+pilon進行糾錯。html
三代測序拼裝軟件,三代測序平臺 Nanopore / Pacbio 產生的數據的一個共同點就是,讀長長,錯誤率高,在用於分析以前須要對數據進行特殊處理(consensus,糾錯),再進行拼裝任務,Liheng 開發的 Miniasm 能夠直接對未處理的長讀長序列進行快速拼裝,在對Miniasm拼裝的Contig序列進行拋光處理後會出現很多SNP/INDEL, Racon 可解決這個問題,Racon是一個基於minimap和miniasm的,構建一致性序列(consensus)的一款軟件,速度快是其特色。支持 (GFA, FASTA, FASTQ, SAM, MHAP and PAF) 等文件輸入格式,相對於 Quiver / Nanopolish 通用性更高。ios
第一步:用minimap2,拿着80%~90%正確率的原始數據相互比對, 找序列之間的Overlap。git
第二步:找到Overlap,用miniasm進行組裝。github
第三步: 原始的組裝結果充滿了錯誤,因此須要進行糾錯。糾錯分爲兩種,一種是用三代自身數據,一種是用二代數據進行糾錯。固然這兩步都是須要的。工具
首先用minimap2和racon對三代數據進行糾錯,通常迭代個三次就差很少。ui
其次使用二代數據進行糾錯。二代數據雖然短,可是測序質量高,因此通常都要用它進行糾錯。推薦用30X PCR free的illuminia 測序數據。.net
Step 1: 數據預處理,過濾低質量短讀,去接頭。工具不少,經常使用的是trimmomatic、cutadapter、 fastp(處理標準:平均質量高於Q30,對5‘端進行低質量鹼基刪除,保留大於100bp的短讀)htm
Step2:用bwa 比對blog
step3: 用pilon對比對後的BAM文件進行糾錯ci
參考來源:
https://blog.csdn.net/u012110870/article/details/82500726