Contig|scaffold|N50|L50|NG50|貪心算法|de bruiji graph|

時間 2019-11-20

標籤 contig scaffold n50 l50 ng50 貪心算法 bruiji graph 简体版

原文原文鏈接

生物信息學算法

Contig是reads拼成的連續的DNA片斷，連續表達一個gene。經過雙端測序的contig可肯定contig之間的關係獲得scaffold，Scaffold是reads拼成的有gap的DNA片斷。理想狀況下，一條染色體用同一個scaffold的表達。整個genome存在不少零碎片斷，可捨棄。由於duplication產生不少overlap。網站

N50，L50和NG50是評價genome assembly的quality的標準，評價長度時使用N50，N50是一個contig的長度。不選用genome size的50%是由於1.這是估計的size值不必定準；2.sequence 僅覆蓋80%。評價數量使用L50，L50數量越小越好。NG50表達測到genome 覆蓋度。ui

取材方法很重要，獲得目標數據。spa

Assembly算法有可能帶來更多偏差，一般二代測序和三代測序相結合。blog

貪心算法原理是每一步都在找最優解，最後獲得最好的結果，優勢是快，缺點是否是全局最優解，出現重複序列便走不下去。it

de bruiji graph來自橋問題：io

好比：原理

k-mer當k=4時bfc

000添0，成爲0000，0000取000，若下一步添0 成爲0000方法

000添1，成爲0001，0001取001，若下一步添0 成爲0010，0010取010

000添1，成爲0001，0001取001，若下一步添1 成爲0011，0011取011

在序列拼接時：

Qualities取決於二代測序的質量；coverage&read length取決於建庫方法和sequence方法。

生物信息學處理關鍵是考慮研究的物種的特性，eg：某物種的duplication多，或者生物學問題的側重點，eg：重測序。

Genome網站：UCSC

例子：

植物類，但願經過「擬南芥vs抗逆抗旱植物」，清楚看到抗逆抗旱植物的相關特性，或者說但願看到的特性，作以前要估算genome size，能夠看的現象是擴增基因，因而分析擴增基因的具體狀況，好比對於常規部分的不一樣功能、通路及轉錄因子等，對於miRNA的探討,分析出現的緣由。

之前的研究多重於分析生物學特徵，好比某物種全部基因的羅列，如今基因組數量變大以後多研究.進化特徵，好比某一個基因，eg：全部種類黃瓜的苦味，這種主觀感受定量分析的研究。

相關文章

相關標籤/搜索

算法 - Lru算法

PHP 7 新特性

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<