文件格式——fasta格式

fasta格式數據庫

在生物信息學中,FASTA格式(又稱爲Pearson格式),是一種基於文本用於表示核苷酸序列氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來編碼,且容許在序列前添加序列名及註釋ide

格式編碼

序列文件的第一行是由大於號">"或分號";"打頭的任意文字說明習慣經常使用">"做爲起始,用於序列標記。從第二行開始爲序列自己,只容許使用既定的核苷酸氨基酸編碼符號(參見下表)。一般核苷酸符號大小寫都可,而氨基酸經常使用大寫字母。使用時應注意有些程序對大小寫有明確要求。文件每行的字母通常不該超過80個字符。人工智能

下面是FASTA格式的氨基酸序列實例:spa

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*htm

FASTA格式支持的核苷酸代碼以下:ci

核苷酸代碼get

意義it

Aio

Adenosine

C

Cytosine

G

Guanine

T

Thymidine

U

Uracil

R

G A (puRine)

Y

T C (pYrimidine)

K

G T (Ketone)

M

A C (aMino group)

S

G C (Strong interaction)

W

A T (Weak interaction)

B

G T C (not A) (B comes after A)

D

G A T (not C) (D comes after C)

H

A C T (not G) (H comes after G)

V

G C A (not T, not U) (V comes after U)

N

A G C T (aNy)

X

masked

-

gap of indeterminate length

 

 

FASTA格式支持的氨基酸代碼以下:

氨基酸代碼

意義

A

Alanine

B

Aspartic acid or Asparagine

C

Cysteine

D

Aspartic acid

E

Glutamic acid

F

Phenylalanine

G

Glycine

H

Histidine

I

Isoleucine

K

Lysine

L

Leucine

M

Methionine

N

Asparagine

O

Pyrrolysine

P

Proline

Q

Glutamine

R

Arginine

S

Serine

T

Threonine

U

Selenocysteine

V

Valine

W

Tryptophan

Y

Tyrosine

Z

Glutamic acid or Glutamine

X

any

*

translation stop

-

gap of indeterminate length

 

最多見的FASTA格式

 

Fasta格式首先以大於號「>」開頭,接着是序列的標識符「gi|187608668|ref|NM_001043364.2|」,而後是序列的描述信息。換行後是序列信息,序列中容許空格,換行,空行,直到下一個大於號,表示該序列的結束???

全部來源於NCBI的序列都有一個gi「gi|gi_identifier」gi號相似與數據庫中的流水號,由數字組成,具備絕對惟一性。一條核酸或者蛋白質改變了,將賦予一個新的gi號(這時序列的接收號可能不變)。

gi號後面是序列的標識符,下表是來源於不一樣數據庫的標識符的說明。標識符由序列來源標識、序列標識(如接收號、名稱等)等幾部分組成,他們之間用「|」隔開,若是某項缺失,能夠留空可是「|」不能省略。如上例中標識符爲「ref|NM_001043364.2|」,表示序列來源於NCBI的參考序列庫,接收號爲「NM_001043364.2」

文件中和每一行都不要超過80個字符(一般60個字符)。

對於核酸序列,除了爲你們所熟知的ACGTU外,R表明GA嘌呤);Y表明TC嘧啶);K表明GT(帶酮基);M表明AC(帶氨基);S表明G C(強);W表明AT(弱);B表明GTCD表明GATH表明ACTV表明GCAN表明AGCT中任意一種。

Database Name數據庫名稱

Identifier Syntax 標識符

GenBank

gb|accession|locus

EMBL Data Library

emb|accession|locus

DDBJ, DNA Database of Japan

dbj|accession|locus

NBRF PIR

pir||entry

Protein Research Foundation

prf||name

SWISS-PROT

sp|accession|entry name

Brookhaven Protein Data Bank

pdb|entry|chain

Patents

pat|country|number

GenInfo Backbone Id

bbs|number

General database identifier

gnl|database|identifier

NCBI Reference Sequence

ref|accession|locus

Local Sequence identifier

 

表:序列來源的數據庫與對應的標識符

 

 

 

 

 

 

 

 

 

 

 

 

數據庫的冗餘(redundancy)

DNA和蛋白質數據庫中的不少記錄是屬於同一基因蛋白質家族,或在不一樣生物體上發現的同源基因。不一樣的研究機構可能向數據庫發送了相同的序列數據,若是沒有被檢查出來,則這些記錄或多或少地緊密相關。固然,這些記錄若是的確很是相近,能夠被認定爲它們是相同序列,但一些顯著的差別多是因爲基因組多樣性的結果。

冗餘數據至少可能致使如下3個潛在的錯誤

一是若是一組DNA氨基酸序列包含了大量很是相關序列族,則相應的統計分析將偏向這些族,在分析結果中,這些族的特性被誇大。

二是序列間不一樣部分的顯著相關多是在數據樣本抽樣時是有偏的和不正確的。

是若是這些數據是被用於預測,則這些序列將使預測方法如人工智能方法發生偏離。

冗餘(non-redundant, nr)

生物數據很是複雜,它遠非冗餘二字能夠準備描述。例如,同一位點上的2等位基因是否是冗餘的?同一輩子物體內的2個同功酶是否冗餘?所以,過於苛刻地去除太過於類似的序列可能致使一些有價值的信息被刪除,應在數據規模和非冗餘之間找到一個合理的平衡點。

序列數據的誤差或人爲假象(artifacts) 主要來自實驗過程,這與其它科學數據的狀況相同。這些人爲假象主要來自如下幾個方面:

(1) 載體序列污染:在測定序列等實驗過程當中,載體序列可能形成污染,導致序列記錄數據中包含了載體序列。

(2) 異源(heterologous)序列污染:有研究代表一些人類cDNA測序結果在實驗過程當中被酵母和細菌序列污染。

(3) 序列的重排和缺失。

(4) 重複因子污染:cDNA克隆方法有時會受到逆轉錄因子(Alus)的影響 。

(5) 測序偏差和天然多態性:測序過程存在必定的偏差機率。

相關文章
相關標籤/搜索