SINTAX: 優於RDP的序列分類器

上文NC:全球範圍內子囊菌是最優點的真菌類羣web

利用SINTAX進行序列鑑定。本文對此方法進行說明。算法

SINTAX於2016年發表於bioRxiv,做者是創造了Usearch的大神。因此看做者訂價值,直接無條件的信任就行了~數據庫

SINTAX採用k-mer算法,來鑑定與參考數據庫最佳匹配的序列,並採用bootstrap方法驗證準確性。和基於樸素貝葉斯方法(Naive Bayesian Classifier)的RDP相比,SINTAX效果至關或更優,且不須要訓練數據集。bootstrap

目前已有的方法都有很高的過分分類錯誤率(over-classification errors),即新的分類單元被錯誤地預測爲已知的菌屬。微信


目前普遍使用的序列分類學鑑定工具備RDP,QIIME,mothur等。他們用的都是RDP的方法,可是所使用的的數據庫不一樣。app

RDP用本身的訓練集作參考數據庫,QIIME用Greengenes的子數據庫GGQ爲參考數據庫,以97%爲閾值進行聚類。mothur以SILVA的子數據庫SILVAM做爲參考數據庫。編輯器

SINTAX算法就不寫了,估計也沒有人想看。直接說結果,做者拿SINTAX v1.0, RDP v2.12, QIIME v1.9.1, mothur v1.36.1進行了對比。工具

SINTAX 和RDP在V4水平表現至關,可是因爲SINTAX過分分類錯誤率更低,其在全長16S和ITS上錯誤率更低,效果更優。ITS門水平上的靈敏度SINTAX (98.3%) 顯著高於RDP (81.8%)。flex

在16S全長水平上,RDP的過分分類錯誤率可達40%。這代表40%的新物種可能都被錯誤的註釋成了已有的物種。url


一個環境工程專業卻作生信分析的深井冰博士,深受拖延症的困擾。想給本身一點壓力,爭取可以不按期分享學到的生信小技能,亦或看文獻過程當中的一些筆記與小收穫,記錄生活中的雜七雜八。

目前能力有限,尚不能創造知識,只是知識的搬運工。

歡迎你們掃描下方二維碼關注個人公衆號,如有問題也可直接加個人微信:水岸風堤(lii32703)。請備註姓名及單位,不然自動忽略。

歡迎分享,轉載請聯繫我。

本文分享自微信公衆號 - Listenlii()。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索