通常來講,宏基因組測序數據量越大越有利於序列組裝,要想深刻了解微生物羣落每每須要深度測序,然而對於項目中大批量的樣品,受制於成本每一個樣品的測序量不會很大;此外,對於動物組織等特殊樣本,去掉宿主序列後剩餘的數據每每不多。爲了得到更好的拼接結果、獲得更多微生物序列,咱們能夠將項目中類似來源的測序數據進行混合組裝。須要注意的是,混合組裝不等於將不一樣樣品的reads合併到一塊兒進行組裝,這樣反而會給組裝帶來很大困擾;多樣品拼接是一個不一樣的組裝策略,他能夠利用序列在不一樣樣本的丰度相關進行聚類並延長。這裏以Spades和Megahit爲例進行介紹。css
nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &
MEGAHIT(https://github.com/voutcn/megahit)是一個快速的節約內存的宏基因組二代測序數據拼接工具,也能夠適用於單基因組組裝。其輸入數據爲fasta/fastq格式的reads或者其gz/bz2壓縮文件。nginx
conda install -c bioconda megahit
MEGAHIT使用方法以下所示:git
megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]-1:雙末端測序的第一端reads文件,爲fasta/q格式,多樣品文件之間逗號分隔,與參數-2一一對應-2:雙末端測序的第二端reads文件,爲fasta/q格式,多樣品文件之間逗號分隔,與參數-1一一對應--12:混合的雙末端reads文件,爲fasta/q格式,多樣品文件之間逗號分隔-r/--read:單端測序的reads文件,爲fasta/q格式,多樣品文件之間逗號分隔--k-list:組裝的kmer size列表,支持多kmer組裝,不一樣kmer size之間逗號分隔,可設置的範圍15-255,相鄰kmer size間隔必須小於或等於28,默認爲21,29,39,59,79,99,119,141--k-min:設置最小的kmer size,應小於255,必須爲奇數,默認爲21--k-max:設置最大的kmer size,應小於255,必須爲奇數,默認爲141--k-step:多kmer組裝的kmer size間隔,應小於等於28必須爲偶數,默認爲12-m/--memory:構建SdBG可使用的最大內存,可設置0-1,也即佔總內存的分數,默認爲0.9--mem-flag:構建SdBG時的內存使用模式0-最小、1適中,或者使用-m/--memory設置具體的內存,默認爲1-t/--num-cpu-threads:程序運行使用的核數-o/--out-dir:輸出結果路徑,默認爲./megahit_out--out-prefix:輸出結果文件的前綴,例如contig文件會是OUT_DIR/OUT_PREFIX.contigs.fa--min-contig-len輸出的最短contigs,默認爲200--keep-tmp-files:保存全部臨時文件--tmp-dir:臨時文件路徑set temp directory
使用MEGAHIT進行多樣品混合組裝以下所示:github
nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &
本文分享自微信公衆號 - 微生態與微進化(MicroEcoEvo)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。web