UniVec是一個數據庫,可用於快速識別核酸序列中可能來自載體來源(載體污染)的片斷。使用UniVec進行篩選是高效的,由於已經消除了大量冗餘子序列,從而建立一個只包含來自大量載體的每一個唯一序列段的一個副本數據庫。除了載體序列,UniVec還包含用於克隆cDNA或基因組DNA過程當中經常使用的adpter、linkers和引物的序列。這使得在載體篩選過程當中能夠發現這些寡核苷酸序列的污染。UniVec能夠從NCBI FTP目錄得到:ftp://ftp.ncbi.nlm.nih.gov/pub/UniVec數據庫
VecScreen是一個系統,它能夠快速找到核酸序列的片斷,這些片斷可能來自於載體。它幫助研究人員在分析或提交序列以前識別和刪除任何載體源片斷。研究人員被鼓勵使用VecScreen搜索頁面上的表單對其序列進行載體污染篩選。spa
沒法識別序列中的外源片斷能夠:code
致使對該序列生物學意義的錯誤結論
浪費時間和精力分析污染序列
延遲在公共數據庫中釋放序列
用受污染的序列污染公共數據庫
GenBank註釋人員使用VecScreen驗證提交給數據庫的序列是否不受載體污染。VecScreen在一個查詢序列中搜索匹配UniVec中任何序列的段。UniVec是一個專用的非冗餘載體數據庫。該搜索使用帶有預設參數的BLAST對載體污染進行最優檢測。匹配載體序列的查詢段將根據匹配的強度進行分類,並顯示它們的位置(參見一個正結果示例)。blog
關於結果的解釋https://www.ncbi.nlm.nih.gov/tools/vecscreen/interpretation/排序
理論上,任何向量污染的序列都應該與已知向量序列相同。在實踐中,偶爾的差別被認爲是由測序錯誤引發的,較少的狀況下,是由工程變異或自發突變引發的。所以,選擇用於VecScreen的搜索參數是爲了找到與已知向量序列相同的序列段,或者只與已知序列略有偏離的序列段。it
用於VecScreen的blastn參數比默認的blastn參數嚴格得多。主要差別有:io
增長對不匹配的懲罰,這嚴重限制了不匹配的頻率。
間隙懲罰更容忍單鹼基插入或刪除,這適應了添加或刪除鹼基的排序錯誤類型。
只對初始命中進行低複雜度過濾,這能夠防止在低複雜度區域中啓動對齊,同時容許跨區域的對齊
使用blastn選項預先設置VecScreen參數:-task blastn -reward 1 -penalty -5 -gapopen 3 -gapextend 3 -dust yes -soft_mask true - value 700 -searchsp 1750000000000ast
載體污染一般發生在序列的開始或結束;所以,對終端和內部匹配使用不一樣的標準。若是匹配在查詢序列開始的25個鹼基內開始,或者在序列結束的25個鹼基內中止,VecScreen將該匹配視爲終端。在另外一個匹配的25個鹼基內開始或中止的匹配也被視爲終端匹配。匹配根據隨機序列之間發生的具備相同得分的比對的預期頻率進行分類。class
強匹配向量:(指望在1,000,000個長度爲350kb的查詢中有一個隨機匹配。)ftp
終端匹配,得分≥24。 內部匹配,得分≥30。
向量適度匹配:(指望在1000個長度爲350 kb的查詢中有一個隨機匹配。)
終場比分19比23。
內部比賽得分25比29。
弱匹配向量:(指望在40個長度爲350 kb的查詢中有一個隨機匹配。)
終場比分16比18。
內部比賽得分23比24。
可疑來源序列
Any segment of fewer than 50 bases between two vector matches or between a match and an end.
https://www.ncbi.nlm.nih.gov/tools/vecscreen/about/
https://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/#Overview
https://www.ncbi.nlm.nih.gov/tools/vecscreen/contam/#Definition