NGS數據格式介紹

通常狀況下,從Illumina平臺上獲得的測序,其數據格式是Fastq格式,能夠稱之爲原始數據(Raw data)。事實上直接的下機數據是顯微拍攝獲得的圖像信息。可是通常都會用Bcl2Fastq軟件將圖像信息轉化成Fastq文件。
 
若是測序是SE:則只有一個fastq文件,若是是PE測序,則獲得兩個Fastq文件。
PE的數據特色有:
(1)兩個Fastq文件中分別包含數據1和2,來區分先後端;
(2)這2個文件的行數必須一致;
(3)相同的行上的數據來自同一條DNA片斷雙末端的測序數據;
(4)Fastq以每4行爲一個單位,表示一條reads的信息。
@HISEQ:6:1101:1703:2071#GCAATGGC/1
AGAATGCGTCATTCTGCGGAACTCATCCGACTGAATACCGAAAAGCAGAATCTGATCCTGGTTTCT
GCCATAAAGTAGCGCGAGCACACAGACGTCTGCGCGCCTGCGGTGACGGCGGTGCGGGT
+
`\```fdbeaeddf]d_ffNddPP\dedd]N[XPdffP\NeNdbff]faeafPdeff]PbPPP[efP^YePY\edfefO[
NNNbcM_effc\OcfcOWbffffMXcaMcffa_cYcYYbccYM]b
第一行 序列名稱
第二行 序列的鹼基組成
第三行 序列信息,或者直接以「+」作標記
第四行 鹼基的質量
如今的Illimina使用的質量格式爲Phred+33,和Sanger的鹼基質量基本一致;鹼基質量使用Q(Phred值)表示,其計算公式爲:

鹼基質量與錯誤率的關係爲:後端

 
相關文章
相關標籤/搜索