Fastq2VCF傳統流程

1.序列QC:shell

去除低質量reads,和連續的低質量片斷,去掉接頭序列。QC統計reads數量及測序質量。數據庫

2.Mapping:app

因爲bwa能準確,快速的將短序列比對到基因組上,並且軟件持續更新和說明文檔完備,是外顯子捕獲測序的首選。編輯器

3.Sam到bam轉換:ide

Samtools 的多種工具能夠將sam文件轉換爲bam文件,rmdup工具能去除PCR擴增產生的冗餘reads,消除因爲文庫擴增而導入的突變,下降假陽性。工具

Flagstat統計reads的mapping狀況以及比較去除duplicate先後reads數目的反映樣品建庫的冗餘狀況。優化

Picard提供的多個工具,修改bam文件,是之適合於後續的GATK軟件包中的工具的處理。編碼

4.Indel區域的reads從新作局部多序列比對:命令行

在indel的邊緣,一些錯配看起來很像是SNP,經過對dbSNP庫及bam文件檢測到的indel附近的reads進行局部的從新比對,能夠消除indel周邊的假陽性SNP。3d

5.鹼基質量從新打分:

測序儀給reads中的鹼基的qual值存在必定的誤差,經過經驗的錯誤模型來從新計算的鹼基的qual值,從新給reads的各個鹼基的qual打分。

6.Call snv和indel:

對處理好的多樣品bam文件同時運行UnifiedGenotyper,大大提升call SNP的靈敏度和準確性,多樣品同時比較的結果,方便了後續的樣品間差別的篩選。

7.突變位點的從新打分:

經過hapmap,omni,dbsnp數據庫中已知的突變位點建模優化,對各個突變位點從新打分,篩選。大大下降了假陽性率。

8.註釋:

經過ANNOVAR軟件對vcf結果註釋,關聯到多個數據庫。

 

2、數據分析內容

1. Mapping統計:

統計總reads數,mapped reads及unique mapped reads數目及百分比。

2. 捕獲效率統計:

統計來自捕獲區域的Fragment比例:

 

統計target區域全部的鹼基覆蓋次數分佈:

對每一個target區域的覆蓋和深度統計:

若是對某些基因特別感興趣,想要看看來自這些基因的外顯子區域的覆蓋狀況,能夠提供每一個target或者特定target區域的覆蓋狀況和測序深度統計。

3. Snv和indel關聯數據庫:

Snv和indel結果按照突變的位點是否在捕獲的區域以內分紅兩部分:

*_target.snv:突變處於捕獲的靶區域(target region)內。

*_off_target.snv或者*_target.indel: 突變在捕獲的靶區域以外。

Snv和indel結果與如下的數據庫關聯,爲突變的篩選提供大量的信息。

1)基因註釋:

經過基因註釋能夠達到如下的目的:突變的功能定位(在外顯子,內含子,剪接位點仍是基因間區);突變所在的基因名稱或者臨近的基因;突變若是在編碼區域,是否引發氨基酸的改變(同義突變,非同義突變的呢過)。

如 果引發氨基酸的改變,按照HGVS命名規則表示--改變的基因ID,轉錄本ID,外顯子編號,以及氨基酸改變,如 NOD2:NM_022162:exon8:c.G2722C:p.G908R。

默認使用refSeq完成基因註釋,若是有特殊的要求,可使用UCSC known gene,Ensembl,GENCODE,CCDS等基因註釋系統。

2) 1000G註釋:

檢測突變位點是否在1000 Genomes Projects(2012 release)數據庫中檢測到,若是檢測到,顯示等位基因頻率(allele frequency)。默認是使用全部人種的數據庫,若是有特定要求,能夠按照要求展現不一樣人種(好比AMR, AFR, ASN,EUR,中國人,日本人)等位基因頻率。

3) dbSNP註釋:

檢測突變是否在dbSNP數據庫中,若是在,顯示rsID。

默認使用db SNP135數據庫,若是有特定的要求,可使用dbSNP129,dbSNP130,dbSNP131,dbSNP132數據庫。

4) AVSIFT:

SIFT是一款很受歡迎的檢測非同義突變位點重要性的軟件,對應非同義突變位點,會給定一個打分,若打分低於0.05,則代表突變極可能會影響到蛋白質的功能

5) 與UCSC的數據庫的關聯:

ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因組註釋信息,目前關聯的數據庫有:

tfbsConsSites:在人/小鼠/大鼠中保守的轉錄因子結合位點,以transfac Matrix Database (v7.0)爲基礎。

wgRna:snoRNA and miRNA註釋。

targetScanS:TargetScan預測的miRNA把區域。

gwasCatalog:已經發表的各類疾病的GWAS結果。

genomicSuperDups:基因組中的重複片斷。

phastConsElements46way:經過phastCons對脊椎動物的全基因組比對生成的保守區域,根據用於比對的物種數目,分爲17way, 28way, 30way, 44way等。

6) cosmic63:

已觀察到的癌症相關突變,顯示在COSMIC中的ID(identifiers),觀察到的次數,以及觀察到的癌組織。

4. CNV:

XHMM是一款外顯子捕獲拷貝數變異檢測的優秀軟件包,使用GATK和XHMM可以獲得較好的外顯子捕獲的CNV結果。

5. 其它:

Polyphen-2 (Polymorphism Phenotyping v2)也是一款基於多序列比對和蛋白質3D結構,預測氨基酸替換(從一種氨基酸改變爲另外一種氨基酸)對蛋白質結構和功能影響的軟件。

 

能夠經過GT(genotype)直接比較樣品間的差別(GT簡介:0表示與Ref相同,1表示與ALTS第1個鹼基相同,2表示如ALTS第2個鹼基相同)。

經過和多個數據庫的提供關聯精細篩選條件:

如今咱們來看Fastq2vcf。能夠流水化做業哦,省去以上多步驟的麻煩。

Fastq2vcf須要兩個文件:一個描述排序數據的數據表和一個配置文件,用於生成一系列能夠直接在Linux / Unix環境下運行的shell腳本。測序數據表包含有關樣品標識符,平臺,庫,讀取組,序列類型(配對結束或單端),目錄和文件名的信息。用戶可使用電子表格程序或文本編輯器構建該表格,並將其保存爲製表符分隔的平面文件。配置文件存儲數據分析工具和程序參數的路徑。配置fastq2vcf後,運行它將生成三類shell腳本文件,這些文件能夠自動執行分析管道中的全部步驟。一個典型的流水線如圖1所示,顯示了fastq2vcf的輸出,三種shell腳本文件,以及這些shell腳本的功能。首先,QC_mapping.sh包含用於調用質量控制和對齊程序的命令行,並格式化數據以供進一步處理。第二個,PreCalling.sh,包含刪除重複數據和從新排列以減小誤報的命令行。第三個腳本文件Variant.sh包含用於變體調用,過濾和註釋的命令行。

 

相關文章
相關標籤/搜索