生物信息學算法
Contig是reads拼成的連續的DNA片斷,連續表達一個gene。經過雙端測序的contig可肯定contig之間的關係獲得scaffold,Scaffold是reads拼成的有gap的DNA片斷。理想狀況下,一條染色體用同一個scaffold的表達。整個genome存在不少零碎片斷,可捨棄。由於duplication產生不少overlap。網站
N50,L50和NG50是評價genome assembly的quality的標準,評價長度時使用N50,N50是一個contig的長度。不選用genome size的50%是由於1.這是估計的size值不必定準;2.sequence 僅覆蓋80%。評價數量使用L50,L50數量越小越好。NG50表達測到genome 覆蓋度。ui
取材方法很重要,獲得目標數據。spa
Assembly算法有可能帶來更多偏差,一般二代測序和三代測序相結合。blog
貪心算法原理是每一步都在找最優解,最後獲得最好的結果,優勢是快,缺點是否是全局最優解,出現重複序列便走不下去。it
de bruiji graph來自橋問題:io
好比:原理
k-mer當k=4時bfc
000添0,成爲0000,0000取000,若下一步添0 成爲0000方法
000添1,成爲0001,0001取001,若下一步添0 成爲0010,0010取010
000添1,成爲0001,0001取001,若下一步添1 成爲0011,0011取011
在序列拼接時:
Qualities取決於二代測序的質量;coverage&read length取決於建庫方法和sequence方法。
生物信息學處理關鍵是考慮研究的物種的特性,eg:某物種的duplication多,或者生物學問題的側重點,eg:重測序。
Genome網站:UCSC
例子:
植物類,但願經過「擬南芥vs抗逆抗旱植物」,清楚看到抗逆抗旱植物的相關特性,或者說但願看到的特性,作以前要估算genome size,能夠看的現象是擴增基因,因而分析擴增基因的具體狀況,好比對於常規部分的不一樣功能、通路及轉錄因子等,對於miRNA的探討,分析出現的緣由。
之前的研究多重於分析生物學特徵,好比某物種全部基因的羅列,如今基因組數量變大以後多研究.進化特徵,好比某一個基因,eg:全部種類黃瓜的苦味,這種主觀感受定量分析的研究。