基因組組裝或者宏基因組binning得到的基因組草圖,首先須要評估其質量,包括基因組完整度、污染度、序列分佈等信息。css
Python3HMMER (>=3.1b1)prodigal (2.60 or >=2.6.1)1.1,https://github.com/matsen/pplacer) =
安裝方法以下所示:nginx
pip3 install numpypip3 install matplotlibpip3 install pysam#若是已安裝能夠忽略以上步驟pip3 install checkm-genome
wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gztar -zxvf checkm_data_2015_01_16.tar.gzcheckm data setRoot $PATH/checkm_data
CheckM主要的工具命令以下所示:git
marker set: tree 將bins放入參考基因組發育樹 tree_qa 評估每一個bin裏的系統發育標記基因 lineage_set 推斷每一個bin的標記基因集marker set: taxon_list 列出數據庫可用的不一樣分類水平列表 taxon_set 指定一個分類水平製做基因集
Apply marker set to genome bins: analyze 識別bins中的標記基因 qa 評估bins完整度和污染度
lineage_wf 運行tree、lineage_set、analyze、qa taxonomy_wf 運行taxon_set、analyze、qa
checkm lineage_wf <bin folder> <output folder>
checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>
nohup checkm lineage_wf -t 20 -x fa --nt --tab_table -f bins_qa.txt metabat_bins bins_qa_result &
其中-x指定bins文件的拓展名,輸入路徑中其餘拓展名的文件將被忽略;--nt輸出每一個bin中的基因序列(調用prodigal軟件進行預測);-f將默認輸出到標準輸出的評估結果儲存到指定結果文件;--tab_table結果文件中表格形式的結果以tab分隔。github
在結果路徑bins_qa_result/bins中爲每一個bin預測的基因序列,在bins_qa_result/storage中則爲每一個bin詳細的評估信息,其中bin_stats.analyze.tsv爲每一個bin基礎統計信息,bin_stats.tree.tsv爲每一個bin在發育樹中的位置,bin_stats_ext.tsv爲每一個bin對應的marker基因集,marker_gene_stats.tsv爲每一個bin的序列上marker基因比對信息。sql
unbinned 識別沒有被分裝(unbinned)的序列coverage 計算序列的coveragetetra 計算每條序列的四核苷酸頻率profile 計算map到每一個bin的reads的百分率,可用比較bins丰度join_tables 將tab分割的不一樣bin信息表文件整合ssu_finder 識別序列中的核糖體小亞基RNA(SSU rRNAs),也即16S/18S
CheckM還提供了一系列做圖工具,用於bins質量可視化,以下所示:數據庫
bin_qa_plot:繪製bin完整度、污染度和異質性條形圖gc_plot:繪製每一個bin的不一樣序列GC含量分佈直方圖及偏差圖coding_plot:繪製每一個bin序列的編碼密度(coding density,CD)直方圖及偏差圖tetra_plot:繪製bin每條序列與bin平均四核苷酸頻率的距離(tetranucleotide distance,TD)直方圖及偏差圖dist_plot:將以上三個圖形繪製在一塊兒
checkm dist_plot [Options] out_folder bin_folder plot_folder tetra_profile dist_valueout_folder CheckM評估bins的結果文件夾,也即前面生成的bins_qa_resulttetra_profile tetra命令計算的contigs序列四核苷酸頻率plot_folder 輸出圖像的文件夾,無需事先建立dist_value 機率分佈距離,也即展現contigs序列的置信區間,用於偏差圖--image_type 輸出圖片格式,可選eps、pdf、png、ps、svg,默認爲png--dpi 輸出圖片的DPI,默認爲600--font_size 輸出圖片字體大小,默認爲8-x, --extension bins序列文件的拓展名,默認爲fna,文件夾中其餘後綴的文件將被忽略--width 輸出圖片的寬度,默認爲6.5--height 輸出圖片的高度,默認爲8-a, --gc_window_size 計算GC含量時滑窗大小(window size),默認爲5000-b, --td_window_size 計算TD時滑窗大小,默認爲5000-c, --cd_window_size 計算CD時滑窗大小,默認爲10000-1, --gc_bin_width 圖像中GC bars寬度,默認爲0.01-2, --td_bin_width 圖像中TD bars寬度,默認爲0.01-3, --cd_bin_width 圖像中CD bars寬度,默認爲0.01-q, --quiet 壓縮輸出結果
下面繪製bins質量評估圖像,以下所示:swift
checkm dist_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_plots ../checkm_tetra.out 95
評估結果以下所示:微信
bin_qa_plot使用方法以下所示:編輯器
checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots
部分結果以下所示:ide
不一樣的顏色分別表明單拷貝、丟失、雜合與污染的marker基因,每個bar表明一個marker,多拷貝基因之間氨基酸匹配(amino acid identity,AAI)大於90%被認爲是雜合的(同一個物種不一樣株的等位基因),而AAI小於90%被認爲是其餘物種污染。
爲了進一步評估每一個bin的拼接程度,能夠繪製Nx圖(x=0.5即爲基因組評估的N50),以下所示:
checkm nx_plot --image_type pdf -x fa --font_size 12 metabat_bins checkm_Nx_plots
另外兩個類似的做圖命令:
len_plot:每一個bin累積序列長度len_hist:每一個bin序列長度直方圖
使用marker_plot命令可繪製marker基因在序列中的位置,以下所示:
checkm marker_plot --image_type pdf -x fa --font_size 10 bins_qa_result metabat_bins checkm_marker_plots
部分結果以下所示:
本文分享自微信公衆號 - 微生態與微進化(MicroEcoEvo)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。