fasta格式數據庫
在生物信息學中,FASTA格式(又稱爲Pearson格式),是一種基於文本用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來編碼,且容許在序列前添加序列名及註釋。ide
格式編碼
序列文件的第一行是由大於號">"或分號";"打頭的任意文字說明(習慣經常使用">"做爲起始),用於序列標記。從第二行開始爲序列自己,只容許使用既定的核苷酸或氨基酸編碼符號(參見下表)。一般核苷酸符號大小寫都可,而氨基酸經常使用大寫字母。使用時應注意有些程序對大小寫有明確要求。文件每行的字母通常不該超過80個字符。人工智能
下面是FASTA格式的氨基酸序列實例:spa
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*htm
FASTA格式支持的核苷酸代碼以下:ci
核苷酸代碼get |
意義it |
Aio |
Adenosine |
C |
Cytosine |
G |
Guanine |
T |
Thymidine |
U |
Uracil |
R |
G A (puRine) |
Y |
T C (pYrimidine) |
K |
G T (Ketone) |
M |
A C (aMino group) |
S |
G C (Strong interaction) |
W |
A T (Weak interaction) |
B |
G T C (not A) (B comes after A) |
D |
G A T (not C) (D comes after C) |
H |
A C T (not G) (H comes after G) |
V |
G C A (not T, not U) (V comes after U) |
N |
A G C T (aNy) |
X |
masked |
- |
gap of indeterminate length |
FASTA格式支持的氨基酸代碼以下:
氨基酸代碼 |
意義 |
A |
Alanine |
B |
Aspartic acid or Asparagine |
C |
Cysteine |
D |
Aspartic acid |
E |
Glutamic acid |
F |
Phenylalanine |
G |
Glycine |
H |
Histidine |
I |
Isoleucine |
K |
Lysine |
L |
Leucine |
M |
Methionine |
N |
Asparagine |
O |
Pyrrolysine |
P |
Proline |
Q |
Glutamine |
R |
Arginine |
S |
Serine |
T |
Threonine |
U |
Selenocysteine |
V |
Valine |
W |
Tryptophan |
Y |
Tyrosine |
Z |
Glutamic acid or Glutamine |
X |
any |
* |
translation stop |
- |
gap of indeterminate length |
最多見的FASTA格式
Fasta格式首先以大於號「>」開頭,接着是序列的標識符「gi|187608668|ref|NM_001043364.2|」,而後是序列的描述信息。換行後是序列信息,序列中容許空格,換行,空行,直到下一個大於號,表示該序列的結束???。
全部來源於NCBI的序列都有一個gi號「gi|gi_identifier」,gi號相似與數據庫中的流水號,由數字組成,具備絕對惟一性。一條核酸或者蛋白質改變了,將賦予一個新的gi號(這時序列的接收號可能不變)。
gi號後面是序列的標識符,下表是來源於不一樣數據庫的標識符的說明。標識符由序列來源標識、序列標識(如接收號、名稱等)等幾部分組成,他們之間用「|」隔開,若是某項缺失,能夠留空可是「|」不能省略。如上例中標識符爲「ref|NM_001043364.2|」,表示序列來源於NCBI的參考序列庫,接收號爲「NM_001043364.2」。
文件中和每一行都不要超過80個字符(一般60個字符)。
對於核酸序列,除了爲你們所熟知的A、C、G、T、U外,R表明G或A(嘌呤);Y表明T或C(嘧啶);K表明G或T(帶酮基);M表明A或C(帶氨基);S表明G 或C(強);W表明A或T(弱);B表明G、T或C;D表明G、A或T;H表明A、C或T;V表明G、C或A;N表明A、G、C、T中任意一種。
Database Name數據庫名稱 |
Identifier Syntax 標識符 |
GenBank |
gb|accession|locus |
EMBL Data Library |
emb|accession|locus |
DDBJ, DNA Database of Japan |
dbj|accession|locus |
NBRF PIR |
pir||entry |
Protein Research Foundation |
prf||name |
SWISS-PROT |
sp|accession|entry name |
Brookhaven Protein Data Bank |
pdb|entry|chain |
Patents |
pat|country|number |
GenInfo Backbone Id |
bbs|number |
General database identifier |
gnl|database|identifier |
NCBI Reference Sequence |
ref|accession|locus |
Local Sequence identifier |
|
表:序列來源的數據庫與對應的標識符
數據庫的冗餘(redundancy)
DNA和蛋白質數據庫中的不少記錄是屬於同一基因和蛋白質家族,或在不一樣生物體上發現的同源基因。不一樣的研究機構可能向數據庫發送了相同的序列數據,若是沒有被檢查出來,則這些記錄或多或少地緊密相關。固然,這些記錄若是的確很是相近,能夠被認定爲它們是相同序列,但一些顯著的差別多是因爲基因組多樣性的結果。
冗餘數據至少可能致使如下3個潛在的錯誤
一是若是一組DNA或氨基酸序列包含了大量很是相關序列族,則相應的統計分析將偏向這些族,在分析結果中,這些族的特性被誇大。
二是序列間不一樣部分的顯著相關多是在數據樣本抽樣時是有偏的和不正確的。
三是若是這些數據是被用於預測,則這些序列將使預測方法—如人工智能方法—發生偏離。
非冗餘(non-redundant, nr)
生物數據很是複雜,它遠非「冗餘」二字能夠準備描述。例如,同一位點上的2個等位基因是否是冗餘的?同一輩子物體內的2個同功酶是否冗餘?所以,過於苛刻地去除「太過於類似的序列」可能致使一些有價值的信息被刪除,應在數據規模和非冗餘之間找到一個合理的平衡點。
序列數據的誤差或人爲假象(artifacts) 主要來自實驗過程,這與其它科學數據的狀況相同。這些人爲假象主要來自如下幾個方面:
(1) 載體序列污染:在測定序列等實驗過程當中,載體序列可能形成污染,導致序列記錄數據中包含了載體序列。
(2) 異源(heterologous)序列污染:有研究代表一些人類cDNA測序結果在實驗過程當中被酵母和細菌序列污染。
(3) 序列的重排和缺失。
(4) 重複因子污染:cDNA克隆方法有時會受到逆轉錄因子(如Alus)的影響 。
(5) 測序偏差和天然多態性:測序過程存在必定的偏差機率。