CheckM:基因組質量評估


基因組組裝或者宏基因組binning得到的基因組草圖,首先須要評估其質量,包括基因組完整度、污染度、序列分佈等信息。css


基因組評估最經常使用的軟件是 CheckM https://ecogenomics.github.io/CheckM/ )。 CheckM 提供了一系列工具用於評估從分離培養、單細胞、宏基因組得到的基因組質量,能夠根據基因組在參考基因組發育樹中的位置來推斷其精確的單拷貝標記基因集( lineage-specificmarker set ),同時也提供數據庫可用的基於分類學的基因集( taxonomic-specificmarker set )。 CheckM 利用基因的單拷貝性來有效的估計基因組完整度和污染,同時能繪製基因組關鍵特徵(例如 GC 含量、編碼率)的圖像來評估基因組的質量。
CheckM 安裝,所須要依賴的環境以下所示:
Python3HMMER (>=3.1b1)prodigal (2.60 or >=2.6.1)pplacer (>=1.1,https://github.com/matsen/pplacer)

安裝方法以下所示:nginx

pip3 install numpypip3 install matplotlibpip3 install pysam#若是已安裝能夠忽略以上步驟pip3 install checkm-genome
下載數據庫並設置數據庫路徑:
wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gztar -zxvf checkm_data_2015_01_16.tar.gzcheckm data setRoot $PATH/checkm_data

CheckM主要的工具命令以下所示:git

Lineage-specific marker set: tree 將bins放入參考基因組發育樹 tree_qa 評估每一個bin裏的系統發育標記基因 lineage_set 推斷每一個bin的標記基因集Taxonomic-specific marker set: taxon_list 列出數據庫可用的不一樣分類水平列表    taxon_set    指定一個分類水平製做基因集
以上爲兩種肯定基因組標記基因集合( marker set )的方法,使用將 bins 放入系統發育樹依據系統發育關係推斷的標記集合爲 lineage-specificmarker sets ,使用依據分類系統產生的爲 taxonomic-specificmarker set
Apply marker set to genome bins: analyze 識別bins中的標記基因    qa        評估bins完整度和污染度
下面兩個命令爲上述命令的集合流程
 lineage_wf 運行tree、lineage_set、analyze、qa    taxonomy_wf  運行taxon_set、analyze、qa
通常狀況下推薦使用基於系統發育的流程,其使用方法以下所示:
checkm lineage_wf <bin folder> <output folder>
其中 bin folder 爲含有 bins 序列的路徑, output folder 爲結果文件路徑名稱(程序會自動建立文件夾),若是所得到的 draft 基因組都是屬於某個已知分類單元,那麼使用基於分類學的方法更加便捷,使用方法以下所示:
checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>
其中 rank 爲分類層級例如 phylum taxon 爲分類單元例如 Cyanobacteria 。下面使用 lineage_wf 流程進行分析,以下所示:
nohup checkm lineage_wf -t 20 -x fa --nt --tab_table -f bins_qa.txt metabat_bins bins_qa_result &

其中-x指定bins文件的拓展名,輸入路徑中其餘拓展名的文件將被忽略;--nt輸出每一個bin中的基因序列(調用prodigal軟件進行預測);-f將默認輸出到標準輸出的評估結果儲存到指定結果文件;--tab_table結果文件中表格形式的結果以tab分隔。github

運行結束後生成的 bins_qa.txt 結果文件中包含 bin 的譜系、基因組基因數目、 marker 基因數目、完整度、污染度等信息,以下所示:

在結果路徑bins_qa_result/bins中爲每一個bin預測的基因序列,在bins_qa_result/storage中則爲每一個bin詳細的評估信息,其中bin_stats.analyze.tsv爲每一個bin基礎統計信息,bin_stats.tree.tsv爲每一個bin在發育樹中的位置,bin_stats_ext.tsv爲每一個bin對應的marker基因集,marker_gene_stats.tsv爲每一個bin的序列上marker基因比對信息。sql

除了綜合評估外, CheckM 提供了一系列工具來計算基因組特徵,具體以下所示:
unbinned 識別沒有被分裝(unbinned)的序列coverage 計算序列的coveragetetra 計算每條序列的四核苷酸頻率profile 計算map到每一個bin的reads的百分率,可用比較bins丰度join_tables 將tab分割的不一樣bin信息表文件整合ssu_finder    識別序列中的核糖體小亞基RNA(SSU rRNAs),也即16S/18S

CheckM還提供了一系列做圖工具,用於bins質量可視化,以下所示:數據庫

bin_qa_plot:繪製bin完整度、污染度和異質性條形圖gc_plot:繪製每一個bin的不一樣序列GC含量分佈直方圖及偏差圖coding_plot:繪製每一個bin序列的編碼密度(coding density,CD)直方圖及偏差圖tetra_plot:繪製bin每條序列與bin平均四核苷酸頻率的距離(tetranucleotide distanceTD)直方圖及偏差圖dist_plot:將以上三個圖形繪製在一塊兒
其中 dist_plot 使用方法以下所示:
checkm dist_plot [Options] out_folder bin_folder plot_folder tetra_profile dist_valueout_folder CheckM評估bins的結果文件夾,也即前面生成的bins_qa_resulttetra_profile tetra命令計算的contigs序列四核苷酸頻率plot_folder 輸出圖像的文件夾,無需事先建立dist_value 機率分佈距離,也即展現contigs序列的置信區間,用於偏差圖--image_type 輸出圖片格式,可選eps、pdf、png、ps、svg,默認爲png--dpi 輸出圖片的DPI,默認爲600--font_size 輸出圖片字體大小,默認爲8-x, --extension bins序列文件的拓展名,默認爲fna,文件夾中其餘後綴的文件將被忽略--width 輸出圖片的寬度,默認爲6.5--height 輸出圖片的高度,默認爲8-a, --gc_window_size 計算GC含量時滑窗大小(window size),默認爲5000-b, --td_window_size 計算TD時滑窗大小,默認爲5000-c, --cd_window_size 計算CD時滑窗大小,默認爲10000-1, --gc_bin_width 圖像中GC bars寬度,默認爲0.01-2, --td_bin_width 圖像中TD bars寬度,默認爲0.01-3, --cd_bin_width 圖像中CD bars寬度,默認爲0.01-q, --quiet 壓縮輸出結果

下面繪製bins質量評估圖像,以下所示:swift

checkm dist_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_plots ../checkm_tetra.out 95

評估結果以下所示:微信

bin_qa_plot使用方法以下所示:編輯器

checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots

部分結果以下所示:ide

不一樣的顏色分別表明單拷貝、丟失、雜合與污染的marker基因,每個bar表明一個marker,多拷貝基因之間氨基酸匹配(amino acid identityAAI)大於90%被認爲是雜合的(同一個物種不一樣株的等位基因),而AAI小於90%被認爲是其餘物種污染。

爲了進一步評估每一個bin的拼接程度,能夠繪製Nx圖(x=0.5即爲基因組評估的N50),以下所示:

checkm nx_plot --image_type pdf -x fa --font_size 12 metabat_bins checkm_Nx_plots
評估結果以下所示:

另外兩個類似的做圖命令:

len_plot:每一個bin累積序列長度len_hist:每一個bin序列長度直方圖

使用marker_plot命令可繪製marker基因在序列中的位置,以下所示:

checkm marker_plot --image_type pdf -x fa --font_size 10 bins_qa_result metabat_bins checkm_marker_plots

部分結果以下所示:

根據 CheckM 評估結果,可進行後續的基因組質量優化。
END

本文分享自微信公衆號 - 微生態與微進化(MicroEcoEvo)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索