BioNano生物納米分子的「原始數據到完成裝配和組裝分析」管線與基於序列的基因組FASTA映射

時間 2019-11-19

標籤 bionano 生物納米分子原始數據完成裝配組裝分析管線基於序列基因組 fasta 映射简体版

原文原文鏈接

生物納米分子的「原始數據到完成裝配和組裝分析」管線與基於序列的基因組FASTA映射html

您完成本實驗以及示例數據集所需的全部腳本將按照如下說明覆制到計算機。您應該按照如下說明，將米色代碼塊中的文本鍵入或粘貼到終端中。若是你不習慣命令行，用真實數據練習是最好的學習方式之一。python

注意：此管道旨在運行在具備576個內核（48x12核心Intel Xeon CPU），256GB RAM和Linux CentOS 7操做系統的Xeon Phi服務器上。可能須要自定義Irys-scaffolding / KSU_bioinfo_lab / assemble_XeonPhi / rescale_stretch.pl的「自定義RefAligner設置」部分，以在不一樣的機器上運行BioNano Assembler。也可能須要定製Irys腳手架/ KSU_bioinfo_lab / assemble_XeonPhi / clusterArguments.xml，以便程序集在不一樣的羣集上成功運行。linux

若是你想要一個基本的linux命令的快速入門，請嘗試從軟件木工http://software-carpentry.org/v4/shell/index.html這10分鐘的課程。git

咱們將使用從大腸桿菌基因組DNA在BioNano Irys基因組測繪系統上生成的單分子圖的BNX文件。咱們將準備這些原始分子圖，併爲他們編寫並運行一系列的組件。而後咱們將找到最好的裝配，並將其用於超級支架，並與大腸桿菌str的片斷拷貝進行比較。K-12子 DH10B基因組，並總結了咱們的最終裝配指標和排列。github

assemble_XeonPhi管道的基本步驟是A）Irys生成轉換成分子圖的BNX文本文件的TIFF文件。B）每一個IrysChip爲兩個流通池中的每個生成一個BNX文件。C）每一個BNX文件的bnx/子目錄-a合併工做目錄，彙總和繪製分子圖質量度量。D）若是提供了引用，則合併的BNX文件將與序列引用中的計算機映射對齊。拉伸從對準從新縮放，而且每次掃描都會打印從新縮放係數。從新縮放的分子圖與參考對齊，估計噪聲參數。E）基於估計的基因組大小和噪聲參數肯定基本彙編代碼。F）第一個組件以各類p值閾值運行（至少有一個組件也運行有抑制噪聲參數）。G）選擇最好的第一個組件（紅色橢圓形），並使用各類最小分子長度過濾器生成該組件的版本。shell

當您經過本實驗室，您應該閱讀關於軟件正在使用經過生成和閱讀幫助菜單。bash

嘗試-man標誌而不是-help標誌更詳細的程序描述（您鍵入q並輸入從手動屏幕退出）。服務器

###步驟1：克隆Git存儲庫ide

如下工做流程須要安裝生物納米腳本和可執行文件中~/scripts，並~/tools分別目錄。按照http://www.bnxinstall.com/training/docs/IrysViewSoftwareInstallationGuide.pdf中的「2.5.1 IrysSolve服務器RefAligner和Assembler」部分中的Linux安裝說明進行操做。學習

完成此操做後，使用如下代碼安裝KSU自定義軟件：

cd ~
git clone https://github.com/i5K-KINBRE-script-share/Irys-scaffolding.git
git clone https://github.com/i5K-KINBRE-script-share/BNGCompare.git

###步驟2：建立具備樣本輸入數據的項目目錄

製做一份工做目錄sample_assembly_working_directory。該目錄具備大腸桿菌str的片斷拷貝。K-12子 DH10B完整的基因組。雖然只有Molecules.bnx文件有任何內容，列出的文件名與IrsyView工做區「Datasets」目錄中能夠看到的文件名相同。

cp -r ~/Irys-scaffolding/KSU_bioinfo_lab/sample_assembly_working_directory ~

###步驟3：檢查刻度密度

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/map_tools/nick_density.pl -help

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/third-party/fa2cmap_multi.pl -help

在silico切口基因組FASTA和檢查nick密度（爲了節省時間，您能夠添加--two_enzyme標誌跳過除BspQI和BbvCI以外，這兩個最經常使用的酶，若是這兩個工做不從新檢查全部可能的酶）

perl ~/Irys-scaffolding/KSU_bioinfo_lab/map_tools/nick_density.pl ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fa

目的是找到每100 kb具備10至20個切口的酶或酶組合。在這種狀況下，結果nick_density.pl代表咱們應該使用BspQI酶，每100 kb估計爲14.868。

該nick_density.pl腳本建立了可用於計算機圖CMAP或標記反應的全部可能的酶的CMAP。您可使用如下命令查看這些。

ls ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/

若是須要雙重切口（例如使用BspQI和BbvCI），由於單酶切痕密度過低，請運行如下命令建立計算機圖CMAP。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/third-party/fa2cmap_multi.pl -v -i ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -e BspQI BbvCI

###步驟4：Molecules.bnx從IrysView Dataset子目錄獲取文件

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/prep_bnxXeonPhi.pl -help

在真實的工做流程中，您能夠將Datasets目錄從IrysView 移動到裝配工做目錄並運行prep_bnxXeonPhi.pl。在這種狀況下，Datasets目錄已經在咱們的工做目錄中。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/prep_bnxXeonPhi.pl -a ~/sample_assembly_working_directory

經過在新bnx子目錄中查找Molecule BNX文件來檢查它是否有效。您調用的下一個腳本將在bnx程序集中使用組裝目錄的子目錄中的任何BNX文件。

ls ~/sample_assembly_working_directory/bnx

#####請注意，若是您須要直接從Irys建立新的Datasets目錄數據：

要建立一個新的Datasets目錄，請在您的數據上運行「AutoDetect」。接下來，將所需的流池導入新的IrsyView工做區。導入後，您須要單擊工做空間中列出的每一個流池才能Molecules.bnx從該RawMolecules.bnx文件生成一個文件。每次點擊後，等到RunReportIyrsView顯示，而後再移動到下一個流池。最後，將整個Datasets目錄移動到您的linux機器和與本實驗室相同的工做流程來分析您本身的數據。

###步驟5：準備分子圖（即Molecules.bnx文件中的映射）並編寫彙編腳本

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/AssembleIrysXeonPhi.pl -help

運行AssembleIrysXeonPhi.pl以生成您的分子圖的摘要指標MapStatsHistograms.pdf，以及BNX文件中每次掃描的從新縮放因子bnx_rescaling_factors.pdf。運行AssembleIrysXeonPhi.pl還將輸出一個名爲的程序集腳本assembly_commands.sh，其中包含具備各類參數的程序集的命令。每組參數都有本身的腳本建立的輸出子目錄。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/AssembleIrysXeonPhi.pl -a ~/sample_assembly_working_directory -g 5 -p Esch_coli_1_2015_000 -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap

瀏覽此腳本在~/sample_assembly_working_directory/目錄中的輸出。

該~/sample_assembly_working_directory/Esch_coli_1_2015_000/MapStatsHistograms.pdf文件包含有關分子圖> 100 kb的信息。該信息包括分子圖N50和累積長度，圖數，分子圖信噪比（SNR），分子圖強度，每分子圖的平均標記SNR和每分子圖的平均標記強度。

該~/sample_assembly_working_directory/Esch_coli_1_2015_000/bnx_rescaling_factors.pdf文件顯示BNX文件的每次掃描的從新調整因子。此輸出會因機器和IrysChip版本而異。它也受到Irys上運行的樣品與用於組裝基於序列的參考樣品之間的標記基序類似度的影響。在您的機器上，您可能會注意到高質量BNX文件的可預測模式。一個這樣的模式的示例以下所示：

彙編腳本~/sample_assembly_working_directory/assembly_commands.sh是寫入除了四個程序集命令以外的全部註釋掉的。若是在運行此命令後，沒有建立使人滿意的程序集，則具備更高和/或更低最小分子圖長度以及最佳組合p值閾值的卸載組件。還要註釋掉已經運行並保存腳本的程序集。從新運行改變的腳本，看看新參數是否改進了程序集。

###步驟6：運行彙編腳本

閱讀本節中的軟件：

python2 ~/scripts/pipelineCL.py -help

使用如下命令啓動您的前四個程序集：

nohup bash ~/sample_assembly_working_directory/assembly_commands.sh &> ~/sample_assembly_working_directory/assembly_commands_out.txt

###步驟7：評估你的程序集

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/assembly_qcXeonPhi.pl -help

檢查您的程序集的質量assembly_qcXeonPhi.pl。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/assembly_qcXeonPhi.pl -a ~/sample_assembly_working_directory -g 5 -p Esch_coli_1_2015_000

最終目標一般是產生可用於指導基於序列的單倍體參考基因組裝配的共有基因組圖譜。雖然單分子圖可用於重建單倍型，但基因組組裝涉及將多態性任意塌陷到共有參考基因組中。所以，理想的共有基因組圖譜的累積長度應等於估計的單倍體基因組長度。另外，100％的共識基因組圖將非冗餘地對齊到計算機圖中的100％。在實踐中，最佳的BioNano裝配是基於與計算機圖中參考的估計的單倍體基因組長度的類似性和最小對準冗餘度來選擇的。「對齊覆蓋寬度」和「總對齊長度」之間的差別越大，對齊冗餘越大。

例如，在下圖中，Strict-T裝配是最好的裝配體，由於它的累積尺寸接近200 Mb，估計的基因組大小，以及非冗餘對齊長度或「寬度對齊覆蓋「和」總對齊長度「。

看看~/sample_assembly_working_directory/Assembly_parameter_tests.pdf文件看看這個程序集的結果。

該文件~/sample_assembly_working_directory/Assembly_parameter_tests.csv有關每一個程序集的其餘詳細信息，若是在查看後沒有明確的最佳程序集可使用~/sample_assembly_working_directory/Assembly_parameter_tests.pdf。

###步驟8：將您的最佳組合與電子地圖中的參考進行比較

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/stitch/sewing_machine.pl -help

sewing_machine.pl是編譯彙編指標的腳本，並在全部可能的目錄中執行「最佳」程序集的拼接：「strict_t」，「default_t」，「relaxed_t」等

針跡過濾器經過置信度對齊XMAP文件，而且對齊的最大潛在長度的百分比。置信度的第一個設置和對齊的所有潛在長度的最小百分比應該被設置爲包括在查看原始XMAP以後研究人員決定表明高質量對齊的範圍。因爲標籤密度低或基於短序列的支架長度，某些比對低於最佳置信度。第二組濾波器應具備用戶定義的較低最小置信度分數，可是爲了捕獲這些對準，該比對的最大潛在長度的百分比高得多。應在IrysView中檢查結果過濾的XMAP，以查看對齊方式與用戶手動選擇的一致。每次跑步時，都會找到最好的超級腳手架對齊。run_compare.pl 直到全部超級腳手架都被發現。

咱們將從置信度分數（--f_con和--s_con）的可能的對齊閾值（--f_algn和--s_algn）的百分比開始默認過濾參數。通常來講，咱們從默認參數開始，而後測試或多或少的嚴格選項，若是咱們的第一個結果不使人滿意

perl ~/Irys-scaffolding/KSU_bioinfo_lab/stitch/sewing_machine.pl -b ~/sample_assembly_working_directory/strict_t_150 -p Esch_coli_1_2015_000 -e BspQI -f ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap

###步驟9：選擇最佳對齊參數，並總結您的結果

閱讀本節中的軟件：

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/write_report.pl -help

打開~/sample_assembly_working_directory/NC_010473_mock_scaffolds_BNGCompare.csv文件找到最佳對齊參數。像選擇最好的組件同樣，您想要找到平衡靈敏度（即長總體對齊長度）的結果，而不會過分增長對齊冗餘。

perl ~/Irys-scaffolding/KSU_bioinfo_lab/assemble_XeonPhi/write_report.pl -b ~/sample_assembly_working_directory/strict_t_150 -p Esch_coli_1_2015_000 -e BspQI -f ~/sample_assembly_working_directory/fasta_and_cmap/NC_010473_mock_scaffolds.fna -r ~/sample_assembly_working_directory/fasta_and_cmap/cmaps/NC_010473_mock_scaffolds_BspQI.cmap --alignment_parameters default_alignment

###第10步：在IrysView中探索你的結果

讀取您的~/sample_assembly_working_directory/report.txt文件或瀏覽~/sample_assembly_working_directory/Esch_coli_1_2015_000輸出目錄中的文件。~/sample_assembly_working_directory/Esch_coli_1_2015_000目錄的內容也在~/sample_assembly_working_directory/Esch_coli_1_2015_000.tar.gz文件中壓縮。將其移動到Windows機器，並按照https://github.com/i5K-KINBRE-script-share/Irys-scaffolding/blob/master/KSU_bioinfo_lab/assemble_XeonPhi/README.pdf文件中的說明查看IrysView中的對齊方式。如下步驟將很難完成，除非您已閱讀README.md文件。

按照加載XMAP的說明，首先將原始計算機映射的XMAP文件導入到組裝的基因組圖中。這將在Esch_coli_1_2015_000/align_in_silico_xmap目錄中。

以上是第一個對齊方式的屏幕截圖（在「silico map＃2」，「silico map＃3」，「silico map＃4」，「silico map＃1」中排序錨點「以後）。

接下來將計算機圖中超級腳手架的XMAP文件導入到組裝的基因組圖中。這將在Esch_coli_1_2015_000/align_in_silico_super_scaffold_xmap目錄中。

以上是第二次排列（在基準圖上對齊的超級腳手架的超級腳手架）的屏幕截圖。

接下來加載超薄腳架的重疊疊加料杯的BED文件在電腦地圖中。這將是Esch_coli_1_2015_000/super_scaffold/Esch_coli_1_2015_000_20_40_15_90_2_superscaffold.fasta_contig.bed。還有一個BED文件的超級腳手架在電腦地圖的空白，但這個樣本基因組的差距很是小，所以在對齊中更難以查看Esch_coli_1_2015_000/super_scaffold/Esch_coli_1_2015_000_20_40_15_90_2_superscaffold.fasta_contig_gaps.bed。

以上是您須要遵循的菜單的屏幕截圖才能開始加載BED文件。

以上是您須要遵循的菜單的屏幕截圖，以便找到超薄腳架在電子地圖中的重疊蓋BED文件。

以上是加載了Contig BED文件的第二個對齊方式的屏幕截圖。

從查看最終的超腳手架對齊切換。sv_xmap將原始的電子地圖從smaps目錄中加載到組裝的基因組圖上。您能夠經過在左側的「比較圖」窗口中突出顯示其餘對齊方式。按照README.md中的說明導入SMAP和合並的BED文件。