bcftools也能夠進行SNP calling。在以前的版本中,一般都是和samtools的mpileup命令結合使用, 命令以下算法
samtools mpileup -uf ref.fa aln.bam | bcftools view -bvcg - > var.raw.bcf
因爲samtools和bcftools更新得都很快,只要有一個版本不對,採用上面的pipeline就會報錯。爲了減小版本不合適帶來的問題,bcftools的開發團隊將mpileup
這個功能添加到了bcftools中。數據庫
在最新版的bcftools 中,只須要使用bcftools這一個工具就能夠實現SNP calling, 用法以下工具
bcftools mpileup mpileup.1.bam --fasta-ref mpileup.ref.fa | bcftools call -mv -o raw.vcf
--fasta-ref
參數指定參考序列的fasta文件,mpileup.bam
是輸入文件,一般都是GATK 標準預處理流程獲得的bam文件。spa
須要注意的是mpileup
命令雖然也會輸出VCF格式的文件,可是並不直接進行snp calling。下面的命令能夠生成VCF格式的文件code
bcftools mpileup mpileup.1.bam --fasta-ref mpileup.ref.fa >mpileup.vcf
直接生成的VCF文件內容以下orm
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT HG00100 17 1 . A <*> 0 . DP=5; PL 17 2 . A <*> 0 . DP=5; PL 17 3 . G <*> 0 . DP=5; PL 17 4 . C <*> 0 . DP=5; PL 17 5 . T <*> 0 . DP=5; PL
裏面的每一條記錄並非一個SNP位點,而是染色體上每一個鹼基的比對狀況的彙總。這種信息官方稱之爲genotype likelihoods。排序
call
命令纔是真正的執行SNP calling的程序,基本用法以下索引
bcftools call mpileup.vcf -c -v -o variants.vcf
在進行SNP calling 時,必須選擇一種算法,有兩種calling算法可供選擇,分別對應-c
和-m
參數。-c
參數對應consensus-caller
算法, -m
參數對應multiallelic-caller
算法,後者更適合多種allel和罕見變異的calling。ip
-v
參數也是經常使用參數,做用是隻輸出變異位點的信息,若是一個位點不是snp/indel, 不會輸出。開發
注:新版本bcftools中 call命令可替代view命令
--------------------------------------------------------------------------------------------------------------
其餘命令
annotate
命令有兩個用途,第一個是用於註釋VCF文件,用法以下
bcftools annotate -a db.vcf -c ID,QUAL,+TAG view.vcf -o annotate.vcf
-a
參數指定註釋用的數據庫文件,格式能夠是VCF, BED, 或者是\t
分隔的自定義文件。在\t
分隔的自定義文件中,必須包含CHROM, POS字段;-c
參數指定將數據庫的哪些信息添加到輸出文件中。
第二個用途是編輯VCF文件,好比去除其中的某些註釋信息,或者去除某些樣本,用法以下
bcftools annotate -x ID,INFO/DP,FORMAT/DP view.vcf -o remove.id.vcf
-x
參數表示去除VCF文件中的註釋信息,能夠是其中的某一列,好比ID
, 也能夠是某些字段,好比INFO/DP
,多個字段的信息用逗號分隔;去除以後,這些信息所在的列並不會去除,而是用.
填充。
concat
命令能夠將多個VCF文件合併爲一個VCF文件,要求輸入的VCF文件必須是排序以後的,若是包含多個樣本的信息,樣本的順序也必須一致。經典的應用場景包括合併不一樣染色體上的VCF文件,合併SNP和INDEL 兩種類型的VCF文件,用法以下
bcftools concat merge.2.a.vcf.gz merge.3.a.vcf.gz -o -o merge.vcf
還須要注意一點,輸入的VCF文件必須是通過bgzip
壓縮的文件。
merge
命令也是用於合併VCF文件,主要用於將單個樣本的VCF文件合併成一個多個樣本的VCF文件。用法以下
bcftools merge merge.a.vcf.gz merge.b.vcf.gz -o merge.vcf
該命令要求輸入文件必須是通過bgzip
壓縮的文件, 並且還須要有.tbi
的索引。
isec
用於在多個VCF文件之間取交集,差集,並集等操做,經典的應用場景是對多種軟件的SNP calling 結果進行venn 分析。用法以下
bcftools isec A.vcf.gz B.vcf.gz -p dir
默認參數就是取交集,更多高級用法請參考幫助文檔。
stats
命令用於統計VCF文件的基本信息,好比突變位點的總數,不一樣類型突變位點的個數等。用法以下
bcftools stats view.vcf > view.stats
輸出文件中記錄了不少類型的統計數據,重點介紹如下幾種
基本信息:
SN 0 number of samples: 3 SN 0 number of records: 15 SN 0 number of no-ALTs: 1 SN 0 number of SNPs: 11 SN 0 number of MNPs: 0 SN 0 number of indels: 3 SN 0 number of others: 0 SN 0 number of multiallelic sites: 1 SN 0 number of multiallelic SNP sites: 0
顛換和轉換的比例:
# TSTV, transitions/transversions: # TSTV [2]id [3]ts [4]tv [5]ts/tv [6]ts (1st ALT) [7]tv (1st ALT) [8]ts/tv (1st ALT) TSTV 0 8 3 2.67 8 3 2.67
Indel 長度分佈:
# IDD, InDel distribution: # IDD [2]id [3]length (deletions negative) [4]count IDD 0 -2 1 IDD 0 1 2 IDD 0 3 1
鹼基替換類型:
# ST, Substitution types: # ST [2]id [3]type [4]count ST 0 A>C 0 ST 0 A>G 0 ST 0 A>T 0 ST 0 C>A 1 ST 0 C>G 0 ST 0 C>T 4 ST 0 G>A 1 ST 0 G>C 1 ST 0 G>T 1 ST 0 T>A 0 ST 0 T>C 3 ST 0 T>G 0
輸出文件能夠用於plot-vcfstats
命令,進行可視化, 這個腳本位於bcftools安裝目錄的misc
目錄下。用法以下
plot-vcfstats view.stats -p output
-p
參數指定輸出結果的目錄,這個腳本依賴latex 生成pdf 文件,因此係統上的latext 必定要安裝好。
輸出目錄下文件不少,詳細列表以下
├── counts_by_af.indels.dat ├── counts_by_af.snps.dat ├── depth.0.dat ├── depth.0.pdf ├── depth.0.png ├── indels.0.dat ├── indels.0.pdf ├── indels.0.png ├── plot.py ├── plot-vcfstats.log ├── substitutions.0.pdf ├── substitutions.0.png ├── summary.aux ├── summary.log ├── summary.pdf ├── summary.tex ├── tstv_by_af.0.dat └── tstv_by_qual.0.dat
主要看summary.pdf
文件就能夠了,該文件包含了不少信息
1.不一樣類型的突變位點彙總
2.插入缺失長度分佈圖
3.測序深度分佈
4.鹼基轉換類型分佈
index
命令用於對VCF文件創建索引,要求輸入的VCF文件必須是使用bgzip
壓縮以後的文件,支持.csi
和.tbi
兩種索引,默認狀況下創建的索引是.csi
格式, 用法以下
bgzip view.vcf bcftools index view.vcf.gz
運行成功後,會生成索引文件view.vcf.gz.csi
。若是須要創建.tbi
格式的索引,用法以下
bcftools index -t view.vcf.gz
tbi索引文件爲view.vcf.gz.tbi
。
view
命令能夠用於VCF和BCF格式的轉換,用法以下
bcftools view view.vcf.gz -O u -o view.bcf
-O
參數指定輸出文件的類型,b
表明壓縮後的BCF文件,u
表明未經壓縮的BCF文件,z
表明壓縮後的VCF文件,v
表明未經壓縮的VCF文件;-o
參數指定輸出文件的名字。
還能夠根據樣本篩選VCF文件,用法以下
bcftools view view.vcf.gz -s NA00001,NA00002 -o subset.vcf
-s
參數指定想要保留的樣本信息,多個樣本用逗號分隔。
若是樣本名稱添加了^
前綴,表明去除這些樣本,好比-s ^NA00001,NA00002
,這個寫法表示從VCF文件中去除NA00001,NA00002
這兩個樣本的信息。
還能夠過濾突變位點,過濾的條件很是多,能夠根據突變位點的類型,基因型類型等等條件進行過濾,詳細的參數能夠參考軟件的幫助文檔,這裏只作一個基本示例
bcftools view view.vcf.gz -k -o known.vcf
-k
參數表示篩選已知的突變位點,即ID
那一列值不是.
的突變位點。
query
命令也是用於格式轉換,和view
命令不一樣,query
經過表達式來指定輸出格式,可定製化程度更高。用法以下
bcftools query -f '%CHROM\t%POS\t%REF\t%ALT[\t%SAMPLE=%GT]\n' view.vcf.gz
-f
參數經過一個表達式來指定輸出格式,其中變量的寫法以下
%CHROM
表明VCF文件中染色體那一列,其餘的列,好比POS
, ID
, REF
, ALT
, QUAL
, FILTER
也是相似的寫法
[]
對於FORMAT字段的信息,必需要中括號括起來
%SAMPLE
表明樣本名稱
%GT
表明FORMAT字段中genotype的信息
\t
表明製表符分隔
\n
表明新的一行
輸出文件以下
11 2343543 A . NA00001=0/0 NA00002=0/0 NA00003=0/0 11 5464562 C T NA00001=./. NA00002=./. NA00003=./. 20 76962 T C NA00001=0/1 NA00002=1/1 NA00003=1/1
更多變量的寫法請參考官方文檔。
sort
命令用於對VCF文件排序, 按照染色體位置進行排序,用法以下
bcftools sort view.vcf.gz -o sort.view.vcf
reheader
命令有兩個用途,第一用途用於編輯VCF文件的頭部,第二個用途用於替換VCF文件中的樣本名。
替換樣本的用法以下
bcftools reheader -s sample.file view.vcf -o new.sample.vcf
-s
參數指定須要替換的樣本名,內容以下
NA00001 NA1 NA00002 NA2 NA00003 NA3
第一列表明VCF文件中原始的樣本名稱,第二列表明替換後的樣本名稱,兩類之間用空格分隔,須要注意的是,樣本名不容許有空格。
編輯VCF文件的頭部的用法以下
bcftools reheader -h header.file view.vcf -o new.header.vcf
-h
參數指定新的header文件,內容以下
##fileformat=VCFv4.3 ##reference=file:///seq/references/1000Genomes-NCBI37.fasta ##contig=<ID=11,length=135006516> ##contig=<ID=20,length=63025520> ....