宏基因組多樣品的混合組裝

通常來講，宏基因組測序數據量越大越有利於序列組裝，要想深刻了解微生物羣落每每須要深度測序，然而對於項目中大批量的樣品，受制於成本每一個樣品的測序量不會很大；此外，對於動物組織等特殊樣本，去掉宿主序列後剩餘的數據每每不多。爲了得到更好的拼接結果、獲得更多微生物序列，咱們能夠將項目中類似來源的測序數據進行混合組裝。須要注意的是，混合組裝不等於將不一樣樣品的reads合併到一塊兒進行組裝，這樣反而會給組裝帶來很大困擾；多樣品拼接是一個不一樣的組裝策略，他能夠利用序列在不一樣樣本的丰度相關進行聚類並延長。這裏以Spades和Megahit爲例進行介紹。css

Spades

Spades （ http://cab.spbu.ru/software/spades/ ）可用於進行單細菌基因組組裝，也能用於宏基因組測序數據，能夠進行二代與三代測序數據的混合組裝，也支持多樣品組裝。該工具在官網下載解壓便可使用。

使用 Spades 進行多樣品混合組裝以下所示：

nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &

具體參數介紹詳見：測序數據的組裝：經常使用軟件工具

Megahit

MEGAHIT（https://github.com/voutcn/megahit）是一個快速的節約內存的宏基因組二代測序數據拼接工具，也能夠適用於單基因組組裝。其輸入數據爲fasta/fastq格式的reads或者其gz/bz2壓縮文件。nginx

最簡便安裝方法：

conda install -c bioconda megahit

MEGAHIT使用方法以下所示：git

megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]-1：雙末端測序的第一端reads文件，爲fasta/q格式，多樣品文件之間逗號分隔，與參數-2一一對應-2：雙末端測序的第二端reads文件，爲fasta/q格式，多樣品文件之間逗號分隔，與參數-1一一對應--12：混合的雙末端reads文件，爲fasta/q格式，多樣品文件之間逗號分隔-r/--read：單端測序的reads文件，爲fasta/q格式，多樣品文件之間逗號分隔--k-list：組裝的kmer size列表，支持多kmer組裝，不一樣kmer size之間逗號分隔，可設置的範圍15-255，相鄰kmer size間隔必須小於或等於28，默認爲21,29,39,59,79,99,119,141--k-min：設置最小的kmer size，應小於255，必須爲奇數，默認爲21--k-max：設置最大的kmer size，應小於255，必須爲奇數，默認爲141--k-step：多kmer組裝的kmer size間隔，應小於等於28必須爲偶數，默認爲12-m/--memory：構建SdBG可使用的最大內存，可設置0-1，也即佔總內存的分數，默認爲0.9--mem-flag：構建SdBG時的內存使用模式0-最小、1適中，或者使用-m/--memory設置具體的內存，默認爲1-t/--num-cpu-threads：程序運行使用的核數-o/--out-dir：輸出結果路徑，默認爲./megahit_out--out-prefix：輸出結果文件的前綴，例如contig文件會是OUT_DIR/OUT_PREFIX.contigs.fa--min-contig-len輸出的最短contigs，默認爲200--keep-tmp-files：保存全部臨時文件--tmp-dir：臨時文件路徑set temp directory

使用MEGAHIT進行多樣品混合組裝以下所示：github

nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &

往期相關文章回顧：

測序數據的解析： Fastq與FastQC

測序數據的質控： Trimmomatic！

測序數據拼接，首先要了解這些概念！

組裝算法：爲何是k-mer?

測序數據的組裝：經常使用軟件工具

k-mer分析：你的基因組有沒有被污染？

本文分享自微信公衆號 - 微生態與微進化（MicroEcoEvo）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。web