天然微生物綜述(2017 IF:31.851)於2018年5月23日在線發表了Rob Knight親自撰寫(一做兼通信)的微生物組領域研究方法綜述,不只系統總結了過去,更爲將來3-5年內本領域研究方法的選擇,提供了清晰的技術路線,讓你們走幹道,少跳坑,作出更好的研究。值得本領域專業人士細心品讀。html
Rob Knight (https://knightlab.ucsd.edu/)是誰你還不知道嗎?他有多牛呢?僅2017發表高水平文章41篇,截止2018年6月25日,累計發表文章565篇,引用124661次,表明做QIIME引用11215次,h指數高達142 (可怕、恐怖,霍金才62,世界紀錄才191)。Rob Knight教授最先在科羅拉多大學任職,目前就任於加州大學聖地亞哥分校微生物組創新中心主任。他是地球微生物組計劃(EMP)、美國腸道計劃的發起人之一,詳見其主頁 https://knightlab.ucsd.edu/git
複雜的微生物羣落造成動態、多變的天然環境,包括哺乳動物腸道、土壤等。DNA測序技術的和數據分析發展極大地推進了微生物組學物種鑑定、假陽性率控制等方面研究。本文做者從實驗設計、分子分析技術選擇、數據分析方法以及綜合多種組學數據集等不一樣方面,對如何實現最優的微生物組學研究進行探討。好比對近期快速發展的精確序列變異(exact sequence variants)的方法替代傳統基於OTU的聚類分析,將宏基因組學和代謝組學相結合的方法,組成性數據分析等方面進行探討。值得注意的是,儘管這些方法很新穎,但在研究中仍是應當關注實驗設計和與研究可重複性相關的經典問題。本綜述對這些問題進行了總結,幫助研究者深刻了解微生物組數據。github
不管是哺乳動物腸道仍是深海沉積物,DNA測序技術的快速發展改變了咱們對各種複雜生境中微生物羣落組成和動態變化的認識。這些技術上的發展推進從臨牀研究到生物技術等科學領域微生物組研究數量激增。與之而來的是研究人員留下的大量實驗數據,並使用一系列使人眼花繚亂的計算工具和方法進行分析。和其餘研究同樣,在微生物組研究中,紮實的實驗是相當重要的,實驗方法、環境因素和分析都會影響最終結果。雖然本領域當前研究得到了不少使人信服的成果,但數據收集和分析方法的標準卻仍不斷變化。算法
微生物組分析方法和標準在快速發展。特別是過去的兩年中,使用精確序列變異來替代OTU分析進行差別丰度檢測,以及相關性分析發展迅速。能夠預期,在宏基因組分類和功能方面、從多個測序數據中整合數據集、進一步改善機器學習、組成型數據分析以及多種組學分析等其餘領域,也有相似的進展。然而,不少與微生物研究相關的基本問題都來自於統計和實驗設計問題。所以本領域目前最重要的挑戰是,整理微生物組研究獨有的新方法,制定能夠普遍應用於科學研究的標準。數據庫
一篇文章中很難完整涵蓋本領域全部內容,本文旨在爲微生物組實驗設計和分析所得數據提供直接的指導標準,特別關注人類、模式生物以及環境微生物組。api
設計能夠得到有意義數據的實驗是分析的第一步。典型的科學問題,例如病例控制和縱向干預研究等均可以放在微生物組的背景下研究。研究者能夠分析在不一樣羣落之間或時間序列下,微生物羣落之間結構組成、遺傳學或功能的潛在差別。值得注意的是,不管樣原本源是什麼,微生物組分析的廣泛方法(見)都適用,可是,這些分析的特定細節取決於樣品來源,例如,從成功的宏基因組測序結果來看,不一樣樣品的16S rRNA基因所需的擴增區域是不同的。markdown
在評估不一樣樣品時,還須要考慮的重要問題是實驗設計和樣品收集。對人類微生物組相關研究容易出現的問題進行分析,發現實驗設計對研究過程很是重要,一般這些值得注意的問題在動物模型和環境樣品中一樣適合(見)。網絡
微生物組學分析中,可重複性相當重要。相似的微生物組相關研究經常產生矛盾的結果,若是沒有詳細的樣品採集方法、實驗設計、數據處理和分析過程記錄就很難檢查和解釋出現問題的緣由。隨着本領域新技術的發展,也有必要使用新的工具來從新分析一些早期的實驗數據,由於重複性對此類研究很是重要。在收集樣品時,採樣的詳細過程應當完整記錄,而且應當考慮到更多的影響因素。另外,實驗中要遵循基因組標準聯盟提出的標記基因(marker gene)和宏基因組的基因組最小信息標準(minimum information standards, MIxS):MIMARKS和MIMS。這些標準保證各個數據集能夠橫向比較。在生物信息學處理過程當中,研究人員應該跟蹤它們運行的全部命令和軟件版本,而且將原始數據儲存在公共數據庫中。咱們推薦使用,等工具來實現這個目的,而後將其儲存在GitHub等版本控制管理系統中。一些軟件包,例如以及等,能夠經過整合數據系統自動追蹤研究者的這些信息。和是強大的組學分析和數據存檔工具,兩者結合起來可使研究者在成千上萬的其餘樣品的大數據背景下分析本身的微生物組數據,同時這些數據也能夠被其餘研究者再次使用。(這些軟件、數據庫的簡介和連接見文末部分)app
儘管,微生物組數據分析方法普遍應用於多種樣品類型和環境中,對於不一樣的樣品,實驗設計和方法的選擇仍是須要認真全面的考慮。首先要注意的問題是樣品的組成和使用不一樣方法的可行性。對於被非微生物DNA嚴重污染的樣品,如植物、動物組織(一般宿主DNA佔樣本的90-99%,想要得到6 Gb微生物數據,理論上須要測序60 - 600 GB原始數據)等若是不排除掉宿主的DNA,鳥槍法宏基因組測序是不太可行的。根據不一樣的實驗問題,若是樣品被死亡微生物等DNA遺蹟嚴重污染(如土壤樣品),則須要在提取DNA以前使用物理方法來去除遺蹟DNA(relic DNA),例如使用單疊氮化丙錠或其餘方法。收集的樣本量也取決於樣本類型,好比生物量較高的糞便樣品可能只須要使用拭子、棉棒,而微生物密度較低的樣品可能須要較大的體積或濃度才能獲取足夠的DNA。例如,海洋微生物羣落樣品一般須要大量的水進行過濾,才能濃縮並獲取足夠的物質進行DNA提取。儘管這樣,在全部狀況下,都應當包括合理的控制措施,尤爲是須要全面控制取樣過程當中的污染物,須要維持環境中較低的生物量,例如血液、脊液或者乾淨的實驗室工做環境。實際上,DNA污染物在不少試劑中都能找到,包括拭子、DNA提取試劑盒和PCR試劑。另外,樣品的保存方法一樣由分析方法和樣品類型決定。舉個例子,宏轉錄組須要RNA酶抑制劑,宏代謝組須要保存樣品的同時不影響其代謝物的提取和數據收集。框架
除了考慮樣品採集以外,實驗設計和原始數據的採集也須要根據樣品類型和環境進行仔細調整。例如,動物研究須要評估同籠(co-housing cage)效應,而且應當將實驗組分紅多個亞類。應當收集新鮮的樣品,而且將原始的小鼠狀況記錄在原始數據中。環境樣品則須要收集和環境條件相關的原始數據,如pH、鹽度、海拔、取樣深度等。收集的方式很大程度上取決於樣品類型,在此可能沒法對全部的樣品進行詳細說明。總之,研究中收集、保存和儲存的方法應該在全部樣品中保持一致,以免混淆和變異。在室溫儲藏期間,樣品的組分可能會受到某些微生物生長的影響。室溫下保存樣本方法選擇,推薦閱讀Microbiome:室溫存儲樣本方法比較。
開展一項可信度高的微生物組研究須要考慮衆多因素
a. 混雜因子對照:年齡、性別、飲食和生活方式
按年齡、性別、飲食和生活方式等潛在的混雜因子分層(分組/分類 stratification)能夠部分解決因爲混雜效應掩蓋組間真實差別的問題
b. 縱向取樣
縱向研究是很是有力的手段,便可以控制混雜因子,又能夠評估羣體的穩定性
c. 實驗技術引入的差別
因爲試劑盒、引物、樣品儲存條件等因素可影響結果,所以實驗有標準化的樣本處理方法是必須的。須要收集樣本處理各階段的元數據(metadata,至關於樣本相關信息),包括臨牀可變因素、樣本處理等,這些對於數據解釋很是重要。沒有元數據,很難單從測序數據中得出有意義的結論。
d. 動物模型
動物研究中,食糞性的影響必須在實驗設計中註明
對微生物組研究而言,細緻的實驗設計對得到準確和有意義的結果相當重要。若是不加以控制,不少複雜因素可能會影響和干擾微生物組數據中的一些模式(圖1)。認真記錄並檢查樣本信息,合理的對照組(包括提取物、試劑空白對照),周密的實驗設計中整體和單個可變因素等都是相當重要的。
首先必須肯定實驗範圍,而後爲感興趣的問題選取適合的實驗設計。
例如,橫向研究(cross-sectional studies)適用於發現不一樣人羣(如健康個體和疾病患者)或生活在不一樣區域個體之間的微生物羣落差別。然而除了咱們所感興趣的疾病緣由以外,個體之間微生物組較大差別的緣由也多是因爲飲食、生活習慣以及藥物等所致。例如糖尿病患者微生物組變化的研究代表可能與二甲雙胍等藥物做用相關。而縱向研究(longitudinal studies,),特別是在疾病發做前收集基線樣本(baseline samples)能夠幫助咱們解決這些問題,但此種方法成本較高。爲了方便下游統計分析,縱向研究應該仔細規劃樣品採集的時間安排:對於人類相關研究而言,這可能意味着要爲每一個被試者在相同的時間點採集樣品。有趣的是,與在同一時間點表現出的特定分類羣相比,疾病活動的有利預測因子可能更源自於羣落的不穩定性。例如和炎症性腸道疾病相比,個體的微生物組羣落結構波動比對照組更大。對於包括雙盲選隨機對照實驗在內的介入性(interventional)研究,對於肯定治療過程的微生物組和疾病狀態關係中較爲有效。
基於分析計劃和特定的科學問題來設計實驗能夠幫助咱們肯定樣本量。(推薦閱讀:樣品生物學重複數據選擇 1必要性 2須要多少重複?)。例如,爲了研究新的廣譜性抗生素對小鼠腸道菌羣的影響,與評估α多樣性(定量測定種羣內多樣性)的變化規律相比,可能須要更多的樣原本觀察特定類羣對抗生藥物治療的影響,由於在不一樣小鼠間,它們的基礎微生物羣落組成就是不一樣的。預期抗生素能夠下降全部小鼠的α多樣性,但它可能經過不一樣的方式來影響微生物羣落組成。對於任何的實驗設計來講,須要採用適當的方法來評估統計能力,辨別技術的可變性以及真實的生物學結果。然而統計能力()和效應量分析()仍然是微生物組研究中的一大挑戰。目前用於分析統計能力和效應量分析的方法大多基於類似性分析PERMANOVA(Adonis和ANOSIM方法組間總體差別評估原理)、狄利克雷-多項式分佈(Dirichlet Multinomial)或者隨機森林分析。隨着這些方法的進一步發展,和宏基因組學、宏轉錄組學、宏蛋白質組學以及代謝組學數據相結合,實驗設計和適當樣本量的選擇也都獲得了合理的改進。對於具體的實驗設計,建議閱讀相似樣本類型和預期結果的相關研究。下面咱們對微生物組實驗設計的一些重要問題進行了擴展。
肯定明確的選擇和篩選標準,以避免混淆新的變量。例如,在個體抗生素治療後恢復時間的變化代表,在過去六個月內接受抗生素治療的個體應當排除在微生物組的相關研究以外,相似的,手通過水洗(不用洗手液等清潔劑)後的2個小時後皮膚微生物組才能恢復。
在病例對照實驗設計中,必須進行適當的選擇和匹配。年齡和性別是最多見的控制標準。但實際上,性別對於大多數人的微生物組而言,在身體各部位的影響較弱,而其餘的影響因素,如藥物和飲食,相對於其餘變量而言每每是更重要的控制因素。這些微生物組變量的相對效應值仍在持續出現中。收集全面的臨牀數據對於識別沒法控制的複雜因素而言相當重要,這個主題的討論詳見15年我發表的綜述(McDonald, D., Birmingham, A. & Knight, R. Context and the human microbiome. Microbiome)。對於環境類研究而言,也必須說明相似的混雜因素,在生態學文獻中,繪圖變化是一個容易混淆的現象,應當使用巢式/嵌套統計檢驗(nested statistical tests)來解決這個問題。
研究微生物組的主要動物模型是齧齒動物,如小鼠。其餘具備不一樣微生物複雜性的模型,如魷魚,昆蟲或斑馬魚,一般可用於研究宿主和微生物之間的特定相互做用(例如,微生物羣和宿主遺傳學如何相互影響)。可是小鼠一般是首選,由於它們具備較好的表明性,而且和人類有較多生理上的類似性。齧齒類微生物組研究須要仔細的實驗設計,因爲他們具備嗜糞性,所以隨着時間的推移,在一個生存空間中的生物學個體和微生物組會變得均勻化,所以實驗必須在多個籠子中加以控制,才能防止同籠效應(cage effects)。其餘的如母體效應(須要隨機化母體效應),避免一隻小鼠一隻籠子致使的。
即便是基因相同的齧齒動物,因爲環境因素(包括飲食,胎次,供應商,運輸和設施等)的不一樣,它們的微生物羣體也可能不一樣。此外,早期微生物組的暴露大大影響已造成的微生物羣體,而且有可能影響免疫系統的發育。相似的問題也存在於其餘兩棲動物模型,如斑馬魚等。
從DNA提取到測序,不一樣實驗方法之間的技術差別很大。在研究中全部樣品必須使用相同的試劑盒,而且在縱向研究中,應當收集多個基礎樣品用來評估時間點的內在變異性。在採樣、DNA提取、PCR和測序過程當中,設計空白(陰性)對照對於監測污染相當重要。在運輸過程當中產生的污染的微生物的在分析過程當中應當儘可能減小,所以樣品應當在-80℃保存。對於一些現場研究或其餘不能及時冷凍保存的狀況,可使用環境儲存方法,例如95%乙醇儲存,或商業產品如RNAlater或OMNIgene Gut試劑盒。人工模擬的菌羣(Mock communities 具備己知的樣品組成成分)可用於標準化分析,即在每次DNA測序過程當中包括相同的標準樣本。總之,使用不一樣方法產生的微生物組數據一致依然是一個未能解決的難題。
根據實驗的規模(包括總體實驗設計,樣品類型和來源,測序方法以及下文討論的其餘因素),研究人員能夠先得到樣本在羣落水平上的概述,再進一步從微生物羣體組水平對功能變異進行深刻的分析的探索。
包括標記基因、宏基因組以及宏轉錄組測序,不一樣的微生物組具備不一樣的方法,從而產生不一樣的結果。全部普遍應用的方法都具備其不一樣的優缺點,所以,問題、假設、樣品類型和分析目標都應該與所選的方法相關()。在這裏,咱們對標記基因、宏基因組以及宏轉錄組的測序成本、合理性、分辨率、以及難度等多方面進行綜合比較。概述了二中每一個方法的最佳工做流程。若是實驗目的是想獲到微生物組較高水平、但低分辨率較低的概述,首選標記基因測序。宏基因組測序能夠經過分析樣品中的總DNA而得到更多的細節,能夠在菌株的水平上加以辨別,並提供更多的分子功能信息的基因。對於宏轉錄組測序,則是更多地用於描述微生物羣落中的基因表達。
在仔細設計和樣本採集後,微生物組數據產生主要包括16S、宏基因組或宏轉錄組測序。16S測序後,咱們推薦使用Deblur得到單鹼基變異的參考序列(sOTUs)。儘管DADA2與Deblur結果相似,但Deblur支持並行處理速度更快且更穩定(在不一樣樣品中得到相同sOTUs)。宏基因組和宏轉錄組首先要去除宿主DNA和RNA,全部rRNA。過濾後的序列能夠採用有參方法Kraken、MEGAN或HUMAnN,或De novo組裝的方法metaSPAdes和MEGAHIT分析。基於以上三種方法的基本分析,接下來的高級分析,如α, β多樣性,物種組成、機器學習等可進一步挖掘微生物組變異的樣式。隨機森林迴歸有許多成功的應用,如屍體死亡時間預測,微生物組成熟指數等。來源貝葉斯估計軟件SourceTracker可很是有效地估計微生物樣本分類在環境中的來源。ITS,轉錄間隔區。
標記基因測序使用的引物,經常是針對某一感興趣的特定區域進行設計,從而可以肯定樣品中微生物的系統發育關係。這個區域一般包含高度可變區,可用於區分研究對象的組成,而且兩側包含能夠用做PCR引物結合位點的高度保守區。例如用於細菌和古細菌鑑定的16S rRNA基因和用於真菌鑑定的轉錄間隔區(ITS)。標記基因的擴增和測序通過了大量的測試,是一種能夠高效低成本得到較低分辨率微生物羣落結構的方法。這種方法適合於被宿主DNA污染的樣品,好比植物或動物組織、以及較低生物量的樣品。可是因爲這些引物擴增區域的DNA序列不一樣,可能對DNA序列的親和力不一樣產生偏好性,從而影響PCR擴增結果。標記基因測序中的偏好性來源多是因爲不一樣的可變區選擇、擴增子片斷大小和PCR循環次數等。引物偏好性對較低生物量的樣品影響尤爲顯著,由於隨着PCR次數增多,污染微生物就會被過多的擴增,從而產生較大的影響。優化引物有助於減輕引物偏好,但這須要有關微生物羣落組成的一些先驗知識,用於評估目標羣落中微生物組成分、分類以及覆蓋度等。然而,即便通過較好優化的引物也經常受限於種屬等分類學水平。標記基因測序一般與基因組背景的相關性較好,因此這也適用於最普遍的樣品類型和實驗設計。關於擴增子引物選擇,可進一步閱讀:16S結構 16S單V4區是最佳選擇? 引物評估等文章。
宏基因組分析就是對樣本內全部微生物基因組進行測序的方法。宏基因組測序與單獨的標記基因測序相比,可以獲到更加詳細的基因組信息以及更高的分類學分辨率,可是在樣品製備、測序和分析的成本上更加昂貴。研究者須要獲得樣品中存在的全部DNA ,包括真核生物DNA以及病毒等。達到足夠的測序深度(即每一個樣品測序讀段的數量)、纔可以肯定物種或者菌株水平的分類學信息、以及儘量依靠較短的DNA序列來組裝成整個微生物基因組。然而,在這種環境下,功能基因的從新註解是不可能實現的。宏基因組測序在基因水平上得到整個羣落功能的能力遠超標記基因能夠分析的範圍。可是在文庫構建、組裝以及參考數據庫進行註釋等方面,則不如標記基因的方法成熟。隨着宏基因組領域的發展,這些註釋步驟將獲得進一步的驗證和改進,關於宏基因組學的全面綜述,推薦閱讀2017年天然生物技術的綜述:宏基因組從取樣到分析(Quince, C., Walker, A. W. & Simpson, J. T. Shotgun metagenomics, from sampling to analysis. Nat. Biotechnol. 35, 833–844 (2017).)。
宏轉錄組分析是經過使用RNA測序來分析微生物組的轉錄過程,從而提供關於基因表達和微生物組功能活性等信息。以前介紹的標記基因以及宏基因組寫個裝方法,僅對樣品中的DNA序列進行分析,無論其細胞存活狀況和活性如何,而宏轉錄組是以RNA爲研究對象。雖然有一些方法從死細胞中消除遺蹟DNA,但對微生物RNA進行測序能夠更好地瞭解微生物羣落的功能活性,但對於轉錄活性較高的生物體有必定的偏向。值得注意的是,採用疊氮溴化丙錠(propidium monoazide, PMA)去除遺蹟DNA的方法也是得到活性微生物組的可選方法之一。宿主RNA污染,特別是較高丰度的rRNAs,也是另外一個重要的考慮因素,應當考慮從樣本中去除rRNAs的方法。儘管有些樣品類型可能有專門的RNA純化方案,RNA仍是必須當心保存,以避免在各類狀況下被降解。例如,土壤樣品須要去除酶抑制腐殖質。儘管這些技術較爲困難,可是轉化成宏轉錄組數據能夠爲研究者提供新穎獨特的看法;轉錄組的變化幅度要大於宏基因組,宏轉錄組能夠研究微生物羣落對異型生物質(藥物、殺蟲劑、致癌物等)的響應過程。若是你想全面瞭解宏轉錄組學分析,請閱讀《使用宏轉錄組進行微生物組研究》的文章(Bashiardes, S., Zilberman- Schapira, G. & Elinav, E. Use of metatranscriptomics in microbiome research. Bioinform. Biol. Insights. 10, 19–25 (2016).)。
理想狀況下,每一個微生物組研究將使用以上三種方法來分析樣本,然而在大多數狀況下,沒有足夠的樣品信息或足夠的項目資金來完成所有三種分析,而且在一些狀況下,樣品可能並不適用於其中的一種測序方法。所以須要研究人員根據科學問題來選擇那種方法是最有效的。若是沒有預算限制,咱們推薦使用宏基因組學測序,不要使用標記基因測序。然而一般狀況下經過標記基因測序可低成本快速得到對微生物羣落組成的最基本信息。接下來就取決於研究的重點,研究人員能夠繼續進行宏基因組學和轉錄組學測序,可是有可能須要二次研究,進行更合理的樣品採集和處理。
綜上,標記基因的方法對諸如引物選擇之類的技術因素較爲敏感,所以應當對實驗方案進行充分的驗證,例如,在地球微生物組項目中,設置多樣化樣品統一的實驗方案是值得學習的。分析標記基因數據的第一步是去除序列錯誤:儘管序列錯誤率很低,在Illumina測序中,每一個核苷酸的錯誤率僅爲 ~ 0.1%,可是很大部分明顯的序列多樣性來源於測序錯誤。直到最近,這個問題得在序列聚類成OTUs中被發現並關注。OTUs聚類,即將類似的序列(一般具備97%類似性閾值)合併歸爲單個的小分類單元,而後將序列的變體(包括經過序列錯誤引入的序列變體)合併成可用於隨後分析的單個OTU。可是這種方法會在必定程度上,遺漏一些細微但真實的生物序列變異狀況,例如存在SNP的序列本該爲多個獨立OTUs卻被的合併成了單個OTU。基於16S rRNA基因測序中位置的特異性信息,來鑑定單鹼基變異(SNP)從而加以區分密切相關但也不一樣的分類羣。諸如和等算法,使用測序錯誤校訂的模型來分析測序數據並將其根據精確序列特徵(標記基因序列)分爲了亞-OTUs(sOTUs)。這些方法獲得的結果是一個DNA序列表,是每一個樣品中的不一樣序列數,而不是OTU羣組。所以咱們推薦,當須要與常見的全長數據參考數據庫比對的時候,這些方法替代現有基於OTU的方法,除非須要組合使用不一樣技術(即Illumina測序和454焦磷酸測序)產生的測序數據或者是引物不一樣。
一個關鍵的分析步驟是爲微生物序列進行物種分類註釋。物種分類經常使用機器學習的方法,如,分類器,它使用的是傳統的貝葉斯模型,在屬的水平上,對核苷酸的出現頻率進行訓練,而後在屬的水平上進行分配,準確度可達~80%。另外,較爲常見的微生物組分析軟件流程還有以及,包括物種分類的功能模塊。原則上,與三大參考數據庫(三個最具特點且常用的是,和)精確匹配應當提供更好的分類學依據,或指定特異性,可是鑑於大量未知的分類羣,這種方法的敏感性較差。此外,由片斷較短的標記基因構建的系統發育樹一般結果較差,將標記基因序列插入到基於全長序列的參考序列系統發育樹中是一種更好的作法。另外,應當對未分類的微生物進行核糖核酸序列分析是否爲細胞器的序列,如葉綠體、線粒體。在不少研究中,這些細胞器序列是應該在分析前過濾去除的(腸道樣品研究中,這些序列能夠用來鑑定食用的食物種類,不該當徹底忽略)。
功能預測分析是一種將標記基因和可用的微生物基因組相聯繫的技術,用來預測宏基因組,從而推斷其生物功能。這種分析一般須要基於參考數據庫生成OTU表,而後基於演繹模型(如)爲這些基因含量預測提供置信區間,即在距離參考基因組較遠的樹置信度低,而在許多參考基因組可用的區域則置信度高。所以,影響這些結果準確性的重要因素就是參考基因組的可用性。預測功能分析的另外一個限制就是,有些細菌家族的表型和基因型上存在差別,可是它們的16S rRNA可變區很是類似,難以區分。
大多數可應用於微生物組標記基因測序的統計方法,也一樣適合於在接下來高級分析中提到的其它組學數據分析。
研究測序樣本的完整核酸狀況,能夠得到微生物羣體更大範圍的物種組成、功能和進化方面的信息,甚至污染均可以提供重要的發現(如宿主所佔比例,潛在的污染源等)。和擴增子分析相似,分析方法的選擇須要考慮樣本的來源和特定的假設。這裏咱們將討論此類分析的最優方法。
將未組裝的DNA或mRNA序列與參考數據庫比對,能夠得到物種和功能基因註釋。隨着輸入數據和數據量史無前例的增加,爲提升分類速度,相關方法也在不斷優化。許多工具使用k-mers分類DNA片斷的物種,如Kraken;或使用Burrows-Wheeler變換算法實現壓縮合並數據庫類似序列,如Bowtie2和Centrifuge等軟件。關於更普遍的工具選擇,咱們推薦讀者閱讀17年基因組生物學的相關軟件評測文章(McIntyre, A. B. R. et al. Comprehensive benchmarking and ensemble approaches for metagenomic classifiers. Genome Biol.)。物種分類標記基因方法採用普遍關注的單拷貝基因,如MetaPhlAn2一條命令得到宏基因組物種組成, TIPP。此外HUMAnN2:人類微生物組統一代謝網絡分析2可進一步註釋基因和代謝通路。一些工具整理了功能和物種註釋,如MEGAN。由於每條測序序列/讀段(reads)是獨立的,基於有參比對(read-based)方法對於土壤微生物組的大數據集是有效的。值得注意的是,基於序列類似有參比對的物種和功能註釋,數據庫的選擇是相當重要的。爲了更好的描述人類腸道環境的特徵,高質量(curated是指是由專業人士校訂並審覈)的基因組數據庫如RefSeq,和蛋白家族數據庫如Pfam或UniRef,能夠增長結果的準確性並減小計算資源的消耗。對於研究較少的環境樣本,能夠考慮使用NCBI nr/nt和IMG/M的大數據庫,雖然會增長計算資源的消耗和下降物種分類的特異性,但數據庫更大結果會更全面無偏。專用數據庫用於註釋特別的物種和功能類別,如專一噬菌體的PHASTER、抗生素抗性基因的Resfams、環境樣本的FOAM。此外,許多宏基因組是有參考基因集的,如Tarar的 海洋樣本、華大基因BGI的小鼠腸道樣本、MetaHit的人類腸道樣本。
另外一種分析宏基因組和宏轉錄組的方法是拼接短序列爲長序列(contigs也叫疊連羣),這些長序列可進一步按類似性進行分類或分箱(bin按序列組分類物種),以得到部分或完整的微生物基因組。此方法不只能夠挖掘數據的物種和功能基因組成,並且能夠預測多基因的生物合成通路,甚至可使用如antiSMASH:微生物次生代謝物基因簇預測的工具來重構代謝產物的基因簇。
然而,使用基於組裝的分析方法是條件的(不適合全部項目),若是樣本生物多樣性高、存在較多相關菌株、以及測序量覆蓋度較低等,會致使低丰度物種在下游分析中不許確或丟失。例如,土壤樣本因其微生物多樣性較高、物種分佈不均勻等特色,組裝很是困難(一些研究單樣本測序量可達300 Gb)。想要避免複雜的宏基因組組裝,可選同行發表的己組裝好的宏基因組參考數據集,或組裝宏轉錄組,這樣可發現高質量數據集中缺乏的「微生物暗物質」。組裝推薦的工具備metaSPAdes、MEGAHIT和評估quast。對這些工具的討論,推薦閱讀 17年的宏基因組組裝軟件評估(Vollmers, J., Wiegand, S. & Kaster, A. K. Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters! PLoS ONE)。
想要組裝得到部分或完善的單菌基因組,長序列一般採用MaxBin2,或CONCOCT進行分箱(binning,或分類)爲假定的單菌基因組,分箱主要原理是基於丰度和核酸組成等信息。分箱的理論可閱讀一文讀懂宏基因組binning;實戰可閱讀分箱宏基因組binning, MaxBin, MetaBin, VizBin。評估分箱基因組的質量,CheckM使用單拷貝基因來估算基因組的完整性和污染率。VizBin能夠在不基於參考序列條件下,可視化宏基因組序列組裝結果,使用戶能夠方便查看相關物種的序列分類簇,輸助評估分箱的質量。
因爲宏基因組組裝的複雜性,咱們推薦使用在這方面整合好的工做流程,能夠自動化進行數據分析,如組裝assembly和分箱bin結果可視化分析平臺—Anvi’o,ATLAS,或MetAMOS。
爲了比較不一樣測序量的樣品,可經過許多標準化方法解決這一問題。經常使用的標準化方法有RPM (reads per million,每百萬的序列數,即百萬比,相似於百分比),TPKM (transcripts per kilobase million,每百萬單位kb長度轉錄本數量,對數據量和基因長度同時標準化,使不一樣基因間相對丰度可比),或相對丰度(relative abundance,如百分比,或整體爲1的小數)。此外,有許多工具能夠進行更爲複雜的標準化方法,如edgeR和DESeq2(採用基於負二項分析的標準化方法,在測序數據領域應用極普遍,edgeR使用實戰詳見3熱圖:差別菌、OTU及功能)。
新工具在有參(reads-based)和無參/組裝(aseembly-based)方法均快速發展。軟件方法的選擇、優缺點評估應該基於背景研究清楚的數據集,或人工合成的數據集(Nat. Methods: 宏基因組軟件評估—人工重組宏基因組基準數據集),這樣才能根據本身的項目特色,選擇合適的方法,有利於微生物羣體研究得到更合理的結果。
微生物組數據通過處理,能夠得到特徵(features,如物種不一樣分類級或基因)與樣本的丰度矩陣。但這一結果是存在迷惑性(deceptively)的,由於微生物組數據一般是高維數據,包括幾千個不一樣物種,矩陣數據(表格)稀疏存在許多零值;所以須要注意的統計處理方法,以挖掘有意義的結果。
和多樣性經常使用於評估微生物組的總體變異。Alpha多樣性能夠量化樣品內的特徵多樣性,也能夠進行樣品組間比較。例如,咱們一個疾病個體與健康對照 ,研究者可比較組間Alpha多樣性的物種均值。Alpha多樣性物種測量的方法有三類:豐富度(richness)的測量經常使用觀測的物種數(Observed OTU / Richness)和Chao1丰度估計(估計真實物種多樣性),進化距離測量採用信任系統發育多樣性(Faith’s phylogenetic diversity),這兩類方法受樣本測序深度影響很大;此外還有一類即考慮豐富度,又考慮均勻度的Shannon指數,對測序量不敏感。詳見箱線圖:Alpha多樣性解讀。請注意,這些方法僅限用於16S數據,應用於其它微生物組數據類型可能並不合適。
Beta多樣性比較每對樣品間特異的差別,產生全部成對樣品間的距離矩陣。度量標準的選擇對結果影響較大,需牢記咱們在解析生物學數據。Bray-Curtis, Canberra, 有權重的UniFrac等定量度量標準採用特徵的丰度信息進行計算,binary-Jaccard,無權重的UniFrac定性方法僅考慮特徵的有無。進化方法的Unifrac分析須要進化樹文件,提供更生物學的解析,但缺乏樹文件時沒法使用。
可提供alpha, beta多樣性分析的軟件有QIIME、Mothur和R語言vegan包。無參數的置換(permutation)檢驗方法PERMANOVA、ANOSIM用於估計的不一樣組間beta多樣性的顯著性,其中PERMANOVA應用於組間變異較大的數據集更好用。計算Alpha和beta多樣性,須要研究者掌握抽樣技術(即每一個樣本中抽取相同數量的序列),不一樣的抽樣數量級可影響結果。目前計算Unifrac最好的方式是稀疏/稀釋(rarefracation),但一些特殊狀況下的成對差別丰度比較須要完整的樣本數據集。
Beta多樣性數據可視化採用排序的技術,經常使用如主座標軸分析(PCoA)或主成分分析(PCA)。點我讀懂PCA和PCoA。這類方法將複雜的距離矩陣,轉換爲可觀察的2或3維空間,表明樣品間距離。樣品能夠按分組信息着色,方便觀察組間差別,屬於無監督的方法。EMPeror框架提供可交互式的顯示PCoA圖。
另外一種經常使用分析方法是比較感興趣組間(處理、對照)微生物或功能(基因、通路)的差別。微生物組數據具備高維、鬆散組成等特徵,鑑定解析微生物羣落差別的分類羣是極有挑戰性的。組成是問題的關鍵;當一種微生物增加,由於比例總和爲1,其它必然會下降。例如,己知某個病人的藥物隻影響一個微生物屬,對其它菌無任何影響。儘可能其它微生物不受藥物影響,但它們相對丰度減小,是由單個微生物屬過分生長引發的。這種狀況影響許多經典方法的結果,如參數統計檢驗(如student’ t-test和ANOVA)、計算相關性(如Spearman排序相關係數)一般致使徹底不可接受的超90%假陽性率。最近,組成意識(compositionally aware)方法提到了組成和相對丰度方法的問題。一種方法是在統計檢驗上強制進行強生物假設:如Lovell’s比例度量方法僅檢測正相關。其它一些工具爲微生物組數據專門作了優化,假定小部分物種是相關的,大多數的相關係數爲0,如SparCC和SPEIC-EASI。BAnOCC是另外一個提出組成問題的工做,它對數據無任何假設。咱們推薦使用另外一種方法,等距對數比例轉換(isometric log ratio transform , ilr),用於檢測微生物羣體間差別。ilr方法控制假陽性率,採用檢測微生物丰度對數變化檢驗,一般認爲平衡。平衡構建基於先驗知識,如進化歷史或微生物對環境因子pH響應的生態位分化。ilr應用後,標準統計工具(如多元響應、線性迴歸和分類)可更有效的檢測平衡或對數比例的微生物組數據差別。最近也有絕對定量的方法,包括測序和細胞計數。
機器學習是在微生物組領域很是有效的方法,可基於當前狀態區分樣品(分類,由己知的分類與結果學習,預測末知分類,如健康和疾病),或預測未來某一狀態。例如,可根據口腔菌羣預測牙齦炎的易感性和嚴重程度。隨機森森迴歸有許多應用,如預測屍體死亡時間、肯定兒童菌羣成熟度。SourceTracker能夠估計末知羣體微生物來源和組成,最有用的是可根據環境樣品來分類微生物的來源。注意,機器學習須要足夠的樣本量,用於交叉驗證,必定是獨立的實驗或數據集來肯定模型的可靠性。
瞭解微生物羣落的組成並非研究的終點,咱們更想知道羣體的功能。多組學數據整合,擴增子測序,宏基因組,宏轉錄組,宏蛋白組,宏代謝組和其它技術均可用於特定微生物羣體功能和組成的深刻理解研究。例如,改變的代謝組成反應生物合成的活性,mRNA和蛋白表達,以及蛋白活性。多組學分析將化學和生物學知識結合,提供研究對象更完整的生物學系統的新方法,是一個活躍的研究領域(圖3)。
分子生物學的中心法則
以細菌細胞爲例:從DNA —— RNA —— 蛋白 —— 代謝物的過程的概述,正好對應多組學研究的6個層面。
a. 空間相關性分析
採用三維可視化分子和微生物特徵地圖,幫助咱們理解空間相關性
b. 稀疏典型相關分析
鑑定線性的兩個子集存在高度相關
c. 相關網絡
相關網絡分析展現成簇的微生物與代謝物,這些代謝物多是相關微生物的產物,方便肯定合成源頭
d. 代謝活性網絡
依賴特定物種分子機制的數學模型,代謝活性網絡幫助預測微生物羣體結構和功能
GSSG,氧化型谷胱甘肽
e. 普氏分析法
普氏分析法能夠在同一主座標軸內可視化數據的趨勢,直接比較具備相同內部結構的不一樣組學數據,
f. 多重共慣性分析
MCIA能夠經過圖形表明不一樣類型,多維比較不一樣組學數據,類似的組學數據能夠更容易理解。
RNA-Seq,轉錄組測序或RNA測序
微生物產生代謝物可影響宿主,微生物羣體動態變化並與宿主疾病和健康有關。bread的音標代謝物有益處(如短鏈脂肪酸)和壞處(基因毒率大腸桿菌素)影響宿主。然而,鑑定微生物組中代謝物來源是很是有挑戰的。更有挑戰的是鑑定代謝物來源的微生物,收集微生物產物,修飾特定代謝物。下面簡單總結解決這些困難的策略:
整合多組學數據存在本質的困難。例如,基因表達與代謝物來自不一樣的時間尺度, 微生物產生許多種代謝物,一般僅是響應其它物種的信號。宏基因組和宏代謝組的數據集(數據矩陣中大多數爲0)比宏蛋白組的數據更鬆散,這對不少分析方法沒法處理。儘管多組學整合是正在發展中的領域,相關可用工具也逐漸增長。例如XCMS可在線整合代謝物數據和代謝通路,也可整合蛋白組和轉錄組。傳統的成對相關分析方法Spearman和Pearson,也能夠進行多組學分析。然而,高維度、高稀疏度的微生物組數據、代謝組數據存在較高假陽性率。普氏分析採用降維數據樣本數據間樣式或距離,必須的是相關排序空間而不是個體的特徵(使用Mantel或PROcrustes隨機檢驗)。其它方法整合組學數據集時,不只考慮樣本間關係,並且關聯樣本與特定元數據中關注的分類信息(如檢查健康、疾病組,或對照與處理組)。此類方法如多重共慣性分析,在兩個不一樣數據集中對樣本相關多維數據進行降維,還有相關元數據(relevant
metadata)、偏最小二乘(partial least-squares)、典型相關分析(canonical correlation analysis)、穩健稀疏(robust sparse)典型相關分析(是一種處理稀疏組學數據的方法)。
優秀的綜合分析工具備全球天然產物協會(GNPS)分子網絡(鑑定代謝物與註釋通路)、普適的系統生物學工具如XCMS在線。多組學研究空間樣式研究己久,目前正在增長時間序列上的研究。空間地圖可使用工具展現,使研究多維多組學數據更方便挖掘和解析。
綜合分析多組學數據須要多種統計方法。但這些方法在微生物組數據中不是最優的。簡單發現組學數據內部的相關是第一步,創建因果聯繫是下一階段的挑戰。介紹了代謝組學和微生物組數據集聯合分析方法,使研究從相關向因果推動。在多組學分析中,多重比較校訂問題是關鍵;數據集可能包括幾千種不一樣的微生物和代謝物,因此會有不少偶然的顯著相關。校訂顯著性檢驗的方法有假陽性率(如Benjamini–Hochberg校訂),更保守的整體錯誤率(family-wise error)校訂(如Bonferroni校訂)。使用這些方法校訂,對下降多組學分析中假陽性率很是有幫助。
儘管仍存衆多挑戰,但多組學數據聯合分析是很是有前景的。也有一些宏基因組、宏轉錄組和代謝組成功整合的例子,闡明微生物組中基因調控、微生物與代謝物共現相關。這類研究發現遠超單組學研究,如研究腸道細菌代謝異生質,和抗生素誘導的微生物組減小產生艱難梭菌適宜的代謝組環境。相對的,宏蛋白組和微生物組數據是一個新研究領域,成功的案例有鑑定Crohn疾病的生物標記、研究永久凍土層中的微生物蛋白產物。此外,宏蛋白組註釋和分析的工具正在開發中。綜上所述,綜合多組學數據能夠更全面的理解微生物組的DNA鑑定、蛋白和代謝物功能,使用研究結果可有指導意義。
本綜述討論了微生物研究全階段工做的指導,從實驗設計、收集儲存樣品、從測序數據的圖形結果中挖掘結果,均對結果與生物學解釋產生影響。因爲許多實驗步驟對生物學結果有影響,所以創建標準化的實驗步驟是必須的,這樣纔可能跨實驗聯合分析。第一步努力是提出推薦使用最優方法,如國際人類微生物標準、微生物質量控制(MBQC)計劃(DNA提取也能發Nature?,NB:實驗vs分析,誰對結果影響大)。生物信息分析流程和對照也正向標準化而努力,如使用雲平臺實現可重計算、公開原始數據和分析源代碼實現可重複研究,這些方面的快速發展爲微生物組領域結果的一致和可比較成爲可能。一個最重要的是引入內參標準的標準化(在生物芯片分析領域中已經很是廣泛),使微生物組分析中生物學真實樣本能夠在系統水平量化。
本文主要關注了羣體水平DNA層面的分析,轉錄組和單細胞測序先進技術也涉及並有一些應用。同時提到要避免在昂貴分析中常常出現的錯誤,如不合理的樣本量和驗證,使用最優方法做爲標準,樣本處理,組成型數據分析,和其它常見的陷阱。使用MBQC和環境微生物組(EMP)中標準化、樣式清楚的樣品收集新方法,可極大縮短探索新方法意義的時間。
本領域的趨勢是向前所末有大數據集、理解流行病學家長期熟知的混雜因子、更重視縱向研究設計等將成爲重點。尤爲是人、動物模型、體外實驗在系統層面和大尺度基礎上,從觀察研究向干預研究是值得考慮的。標準化方法應用的增加,能夠下降噪音和偏好,對微生物領域研究從實驗室範圍向臨牀、田間和天然環境的深刻提供普遍前景。
一文讀懂:Rob Knight手把手指導菌羣研究(必讀綜述)
花開 06-18 熱心腸日報
原標題:菌羣分析的規範
① 菌羣研究和分析方法正高速發展,研究方法標準化、數據共享平臺的推廣爲聯合獨立項目、完善已有成果提供可能;
② 實驗設計需合理設置空白和對照組,並考慮實驗動物的習性;
③ 可參考對已知菌羣的分析效果,決定採用標誌基因組、宏基因組仍是宏轉錄組研究手段和分析方法;
④ 基於序列實際差別的菌羣分析方法應逐步代替OTU分析;
⑤ 基於菌羣相對丰度的相關性分析容易出現假陽性,須要優化分析方法;
⑥ 多組學數據聯合有助於進行全面的、機制性的菌羣研究。
主編評語
菌羣研究和分析方法突飛猛進,本文系統性地介紹了菌羣研究的實驗設計、方法選擇和數據分析方式,在列舉和比較大量研究方法的同時,指出了目前OTU分析、菌羣丰度分析和相關性分析的缺陷,強調數據共享、方法標準化的重要性。文中說起大量最新研究、分析方法和平臺,指導做用強,值得專業人士參考。
秦媛,博士在讀。2014年畢業於河北農業大學植物保護專業,2017年於中國林業科學研究院獲森林保護碩士學位,現就讀於中科院遺傳發育所。現己發表論文6篇,專利1項;其中第一做者3篇發表於Biotechnology Advances、Frontiers in Microbiology、Fungal Ecology,累計影響因子17.9。主要研究方向包括根際微生物組結構與功能、宏基因組學分析方法和科研插圖繪製。
劉永鑫,博士。2008年畢業於東北農大微生物學專業。2014年中科院遺傳發育所獲生物信息學博士學位,2016年博士後出站留所工做,任宏基因組學實驗室工程師,目前主要研究方向爲宏基因組學、數據分析與可重複計算和植物微生物組。發於論文10篇,SCI收錄7篇。2017年7月創辦「宏基因組」公衆號,不到一年關注人數超2萬,累計閱讀超200萬。
宏基因組/微生物組是當今世界科研最熱門的研究領域之一,爲增強本領域的技術交流與傳播,推進中國微生物組計劃發展,中科院青年科研人員創立「宏基因組」公衆號,目標爲打造本領域純乾貨技術及思想交流平臺。公衆號每日推送,內容涉及科研思路、實驗和分析技術、文獻解讀、重要成果報導等。目前通過近一年發展,分享近200篇原創文章,已有21000+小夥伴在這裏一塊兒學習了,感興趣的趕快關注吧。