Contig|scaffold|N50|L50|NG50|貪心算法|de bruiji graph|

生物信息學算法

Contigreads拼成的連續的DNA片斷,連續表達一個gene。經過雙端測序的contig可肯定contig之間的關係獲得scaffoldScaffoldreads拼成的有gapDNA片斷。理想狀況下,一條染色體用同一個scaffold的表達。整個genome存在不少零碎片斷,可捨棄。由於duplication產生不少overlap網站

 

 

 

N50L50NG50是評價genome assemblyquality的標準,評價長度時使用N50N50是一個contig的長度。不選用genome size50%是由於1.這是估計的size值不必定準;2.sequence 僅覆蓋80%。評價數量使用L50L50數量越小越好。NG50表達測到genome 覆蓋度。ui

 

 

 取材方法很重要,獲得目標數據。spa

Assembly算法有可能帶來更多偏差,一般二代測序和三代測序相結合。blog

 

 

 

 

 

 

貪心算法原理是每一步都在找最優解,最後獲得最好的結果,優勢是快,缺點是否是全局最優解,出現重複序列便走不下去。it

 

 

 

 

 

 

de bruiji graph來自橋問題:io

 

 

 

 

好比:原理

k-merk=4bfc

0000,成爲00000000000,若下一步添0 成爲0000方法

0001,成爲00010001001,若下一步添0 成爲00100010010

0001,成爲00010001001,若下一步添1 成爲00110011011

 

 

 

在序列拼接時:

 

 

 

 

 Qualities取決於二代測序的質量;coverage&read length取決於建庫方法和sequence方法。

生物信息學處理關鍵是考慮研究的物種的特性,eg:某物種的duplication多,或者生物學問題的側重點,eg:重測序。

Genome網站:UCSC

例子:

植物類,但願經過「擬南芥vs抗逆抗旱植物」,清楚看到抗逆抗旱植物的相關特性,或者說但願看到的特性,作以前要估算genome size,能夠看的現象是擴增基因,因而分析擴增基因的具體狀況,好比對於常規部分的不一樣功能、通路及轉錄因子等,對於miRNA的探討,分析出現的緣由。

之前的研究多重於分析生物學特徵,好比某物種全部基因的羅列,如今基因組數量變大以後多研究.進化特徵,好比某一個基因,eg:全部種類黃瓜的苦味,這種主觀感受定量分析的研究。

相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息