RNA測序研究現狀與發展

RNA測序研究現狀與發展

  • A+
所屬分類: Transcriptomics
 

RNA測序

一般來講,某一個物種體內全部細胞裏含有的DNA都應該是如出一轍的,只是由於每一種細胞裏所表達的RNA之間存在差別,才使這些細胞有所區別。諸如「爲何腫瘤細胞與正常細胞會不同?」這樣的重要問題均可以經過對這些不一樣細胞裏的RNA進行研究來解決,好比轉錄組學(transcriptome)研究就是一個很好的方法,而這就須要用到RNA測序技術。本期的《天然 方法》(Nature Methods)雜誌隆重推出了國際RNA測序基因組註釋評價項目協會(RNA-seq Genome Annotation Assessment Project, RGASP)發表的兩篇文章,這兩篇文章向咱們介紹了RNA測序領域的現狀。RNA測序(RNA-seq)是最近興起的一種基因表達研究技術,不只能夠對基因表達的狀況進行整理、歸類(cataloging),也能夠對基因表達狀況進行比較。國際RNA測序基因組註釋評價項目協會(international RGASP consortium)最近發表的兩篇論文報道了一場競爭程度至關激烈的、大規模的RNA測序熱潮,各國的科學家們都在尋求最佳的RNA測序分析算法,並且結果也是出人意料的豐富多樣。html

咱們每每喜歡將某一個物種的基因組比喻成該物種的「生命祕籍(book of life)」。linux

可爲了解決基因表達問題,咱們還須要另一本祕籍。ios

那就是轉錄組,咱們不妨將之比做「生命雜誌(newsstand of life)」,以下圖所示。算法

2

轉錄組重建工做,就好像是把被碎紙機粉碎的雜誌又一本本地從新拼接起來。ide

有不少雜誌(即RNA)每一期都「印刷」了不少本,其中有一些可能還有存貨,還有一些留在報刊亭裏,但是有一些卻早就被「賣光」了。在過去,經銷商們只會關注銷量最好的雜誌,而這種雜誌每一本都很是貴,因此你可能也就買得起幾本而已(喻指RNA研究技術和相關產品很是少,並且價格昂貴,科研人員只能對比較重要、熱門的幾種RNA進行研究)。但是如今,因爲測序技術,以及相關技術的飛速發展,你能夠把報刊亭裏的全部雜誌全都買回去,並且價格還不貴。惟一的區別就是經銷商賣給你的並非一本本的雜誌,而是先把全部的雜誌全都放進碎紙機裏,而後把一大堆碎紙條賣給你。幸運的是,在這個虛擬的世界裏,還有那麼一大幫熱心的社會改良家來幫忙整理碎紙條(tape-wielding dogooders,這幫人就是咱們現實生活中的計算機程序開發人員),幫助咱們將碎紙條還原成一本本的雜誌。還有一羣像RGASP這樣的統計狂熱分子也跑來湊熱鬧,他們組織了一場比賽,看看哪些人整理碎紙條的效率最高,準確率最高,可以又快又好地還原出雜誌的原本面目。這個整理、拼接碎紙條的工做就是「轉錄子重建(transcript reconstruction)」工做,這也是Steijger等人的文章裏最關注的工做。而轉錄子重建工做的重點內容之一就是將RNA測序獲得的片斷信息與該RNA來源細胞的基因組對應起來,這就是Engström等人的文章裏最關注的工做。post

老實說,這場比試的結果有點讓人失望。儘管從事這項工做的工做人員數量不少,重建工做的準確率(經過好幾種方法和多種測序指標評價)卻遠遠不及100%。以咱們人類基因組爲例,目前尚未一種轉錄子重建方法的準確率(以平均敏感度和準確性評價)可以達到60%。在線蟲和果蠅重建工做中的準確率會稍高一些,可是這兩種生物的基因組要比咱們人類的基因組小得多,也要簡單得多。並且這3個物種都是迄今爲止被研究得最充分、最深刻的3個物種。有不少物種只是最近才完成基因組測序工做,並無太多時間完善這些物種的基因組序列,所以,對這些物種而言,它們的轉錄子重建工做會更加困難,準確性會更低。ui

從理論上來講,RNA測序實際上是一個很是簡單的過程,只須要分離、獲得RNA樣本,而後用高通量測序儀對這些RNA樣本進行測序,最後拼接出RNA序列就好了。那麼問題究竟出在哪裏呢?主要存在如下幾個方面的問題:spa

1. 咱們得到的RNA樣本與咱們拿來最比較的基因組可能不是同一個來源的。這一點在人類基因組研究工做中尤其突出,由於人類參照基因組就是來自好幾我的的基因組序列;htm

2. RNA樣本的製備過程可能有問題,其中包含了未經充分處理的RNA,或者其它轉錄子的噪音。並且測序的深度越深,這種問題就表現得越明顯,這也恰好解釋了爲何測序深度比較深的時候轉錄子重建工做的準確率會降低;ip

3. 測序技術自己的問題。絕大部分測序技術都會使用到PCR反應,而咱們都知道,PCR反應對GC含量高的序列比較「排斥」,因此這個測序過程自己就會天然而然地「偏向」GC含量低的序列。

分辨出哪些RNA序列是真正的序列,哪些只是噪音信號是一個技術大難題,這可能也是致使衆多算法所得出的結論千差萬別的主要緣由。若是在算法中採用了根據以前的數據創建的基因結構模型(model of gene structure),好比Augustus、mGene和Transomics(http://linux5.softberry.com/cgi-bin/berry/programs/Transomics/)等算法的表現要略好於沒有使用這些模型的算法,這是由於若是使用了基因結構模型,他們還可以大概知道這些基因是個什麼樣子。因此要開發出更好的算法,首先就須要創建更好的基因結構模型。不過這須要在技術上有更大的發展。更低的差錯率可以提升比對工做的準確性,而得到更長的測序結果,好比使用太平洋生物科技公司推出的測序儀(Pacific Bioscience),則可讓轉錄子重建工做更容易,甚至不須要進行轉錄子重建。

雖然RNA測序分析工做的難度很是大,可是咱們能夠確定,這項工做不管是對於分子生物學,仍是計算機科學都有很是大的促進和推進做用。實際上,本期雜誌刊出的這兩篇文章都已經有點過期了。基因組學與生物信息學這兩大領域都是瞬息萬變的新興科研領域,也許咱們今天剛剛開展的工做,寫下或者看過的論文,到了明天就被淘汰了。對於協會等組織開展的涉及大量數據的工做這一點表現得尤其突出。眼光挑剔的讀者們看完了整篇文章以後,仍是不知道在他們的實際科研工做中究竟應該使用哪一種算法時可能就會指出,這些研究的意義究竟何在?

不過這類研究工做至少可以起到如下這3點做用:

1. 這些工做提供了一份寶貴的歷史材料,讓後人能夠了解RNA測序等工做始於什麼時候;

2. 爲目前的工做提供了一個寶貴的參照系,可以對最新的技術和進展進行檢驗;

3. 促進了某個項目、協會和組織的創建,推進整個研究領域向前發展。

最後這第3點尤其重要。若是你有機會接觸、見證,甚至是親自參加一次像RGASP,或者是Assemblathon(http://assemblathon.org/)這樣的工做,你就會被這羣科學家們的創造力、誠實和大度所折服。這些項目並無得到太多特定的資助,他們所使用的數據可能也不會與某個特定的科學問題很是匹配,也經常會有「若是咱們有這些數據該多好」之類的感慨,不過他們老是會竭盡所能地作到最好,這不是由於有人要求他們這麼作,只是由於他們本身要求本身這麼作。最終的結果可能不會讓圈內人(甚至是圈外人)滿意。Le mieux est l‘ennemi du bien(至真者,真之敵;至善者,善之敵;至美者,美之敵)這句老話一樣適用於基因組學研究工做。

參考原文:

Ian Korf. Genomics: the state of the art in RNA-seq analysis. Nature Methods, 26 November 2013; doi:10.1038/nmeth.2735

Tamara Steijger, Josep F Abril, Pär G Engström, Felix Kokocinski, Tim J Hubbard, Roderic Guigó, Jennifer Harrow & Paul Bertone. Assessment of transcript reconstruction methods for RNA-seq. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2714

原文來自:http://page.renren.com/601484932/channel-noteshow-920050838

相關文章
相關標籤/搜索