(基因功能 & 基因表達調控)研究方案

作了很久的RNA-seq分析,基因表達也在口頭溜了幾年了,但彷佛總是浮在表面。express

對一件事的瞭解程度決定了你的思惟深度,只想作技工就不用想太多,想作大師就必定要刨根問底。微信

總是說基因表達,那麼什麼是基因表達?咱們測序獲得的基因表達其實只是一種表型,是樣本的一個快照,和普通的身高體重之類的連續型表型相似。網絡

常規的轉錄組分析本質上都是表型分析,clustering、pseudotime、DEG、marker,在這些分析中,每一個基因都是獨立的維度,屬於靜態的分析,此時咱們關注的是某個基因的功能分析,好比RET,功能已經明確,那就能夠用基因表達這個表型來解釋另外一個表型。ide

高通量測序還會有後續的分析,幾萬個基因不可能一個一個的研究,GO和KEGG分析就來了,基因不是互相獨立的,GO term和pathway的概念就來了。GO和KEGG的本質是規範了基因之間的關係。GO整合了全部物種,是從生命系統的角度來統一基因的關係,這種關係只是一個集合;KEGG是針對一個物種來界定基因之間的關係,這種關係是有向圖結構。必須再深刻了解GO和KEGG的製做原理,暫時不深刻。此時咱們開始區分基因類型,蛋白編碼、非編碼、轉錄因子。在這個階段咱們更關注的是基因之間的調控關係工具

中心法則揭示了生命系統的層級和管道結構,和計算機的通訊系統很相似,就算上游的基礎調控再複雜,下游的蛋白都是決定性因素,因此使人驚歎的是上游調控如此複雜多變,可下游的蛋白確是很是穩定,這說明覆雜多變的調控是很是穩定的。編碼

 

基因研究的第一步必然是基因的功能,其次纔是基因的調控。spa

 

基因功能 

那麼如何研究一個基因的功能呢?參考:#基因組觀#基因功能研究的「七大絕招」與「三板斧」 - BioinforCN翻譯

簡單總結一下這篇文章:orm

1. 天地人和,研究基因表達的時空規律來推測功能,這和偵探調查是同樣的,屬於間接推理;blog

2. 患得患失,就是直接操做基因,knock out或down或overexpress,來直接探索基因的功能,屬於直接觀察;

3. 上下求索,由於中心法則是個層級和管道系統,上下游十分明確,從基因的DNA、RNA到蛋白質,一塊兒研究;

4. 十面埋伏,立體論證,作生物的很容易觀察到假陽性,必須多角度論證;

5. 其餘的,misexpression、in vitro/vivo。

 

不說人類hs了,假設你負責一個全新的物種的基因組和基因功能研究,你如何找到該物種的全部基因呢?

看任何一篇基因組組裝文章都能找到解決方案。那咱們就看看嚴建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement

微信文章:《Nature Genetics》| 玉米產量相關基因找到了 | 熱帶玉米基因組及高精度結構變異圖譜成功構建,助力玉米遺傳改良

首先是基因組DNA的組裝,Genome sequencing, assembly and scaffolding,這部分純技術,之後估計都不要組裝了,直接把基因組測出來;

其次就是基因組註釋了,Genome annotation,這部分是咱們如今最感興趣的部分,如何找到一個新物種內的全部基因?

A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).

方案來了:

1. 基因是有特殊結構的,因此只要有DNA序列,就能夠作denovo預測;

2. 中心法則告訴咱們DNA、RNA和蛋白質是環環相扣的,全部測RNA-seq和iso-seq能夠間接推出基因;

3. 蛋白測序尚未普及,因此目前都用的同源蛋白序列來反推;

這樣註釋出來的只是很general的基因註釋,能cover絕大多數基因,但某些特殊結構的確定沒法註釋出來。

有了草圖,後面再作實驗的功能研究就會方便不少。

基於高通量測序的前兩步只能告訴你基因組的這個地方是個基因,可是不可能告訴你它的功能;第三步就是基於已有的知識了,作同源推理。因此目前來看全部的生物知識都是來源於實驗的,測序只是一個加速的輔助手段而已。

能夠沒有測序,可是不能沒有實驗,測序是科研加速的催化劑。

文章結果:

 

GENE FINDING METHODS - broad institute - 很全面

 

基因表達調控/轉錄調控

教科書解釋:

  1. 染色體和染色質水平的結構變化,致使基因活性變化;Hi-C,bulk平均好些,sc的量太少不靠譜
  2. 轉錄水平調控;轉錄因子,enhancer,promoter,ncRNA
  3. RNA加工水平調控,剪切修飾編輯降解;甲基化,lncRNA抑制降解
  4. 轉錄後,細胞核向細胞質轉運;HDAC4
  5. 翻譯水平;
  6. 蛋白合成水平;蛋白修飾定量,不是AA測序

目前最火的兩個能夠用高通量測序研究的調控方法:

  • 轉錄因子,enhancer,promoter
  • 非編碼RNA,lncRNA、miRNA、ceRNA

參考:

Modes of transcriptional regulation

Transcriptional Regulation and Its Misregulation in Disease

 

項目問題:

如今in vivo和in vitro模型都已成熟,RNA-seq成本你們均可以接受了,CRISPR技術也成熟了,KO一個基因已經變得很是容易,如今發育生物學、生物醫學等都在這麼作:KO一個基因,來探索本身感興趣的生物過程發生了哪些變化。 

如今問題來了,KO後表型確定發生了變化,那麼如何把這個表型和基因表達和調控聯繫到一塊兒呢

這是一個general的問題,解答好了能夠用於任意一個基因的深刻研究。

大致解決方案:

假設檢驗是科研獲取真知的惟一手段,首先咱們必需要一個合理的假設,而後去尋找各類證據來test這個假設。

沒有假設和驗證就不是作科研,那就是一個技工得出一份沒有意義的結題報告。 

 


問題:

1. RNA-seq的建庫方案有哪些?ployA、隨機等。只抓有polyA的MRNA會有哪些優點和缺點?ployA只有mRNA有,因此polyA建庫只能抓到蛋白編碼基因,不多部分地ncRNA。參見連接

2. 細胞核和所有測序的區別?

3. 基因的長度差異到底有多大?

4. 可變剪切和isoform是如何影響蛋白的?

5. KEGG裏面已經有基因的關係了,爲何咱們還要研究基因調控?

6. 蛋白互做網絡的用途和侷限性是什麼?

7. 蛋白是惟一的決定性因素嗎?是的,絕大多數DNA和RNA層面的變化都會最終改變蛋白的功能。好比HSCR的沒法造成ENS就是一個複雜的表型,能夠確定的是某些蛋白的功能執行紊亂了。

8. 基因表達的高低重要,仍是基因表達的on/off重要?

9. 基因是如何找到和定位的?基因的編碼的蛋白是如何肯定的?

10. 如何理解基因之間的關係,是什麼性質的關係?

11. 如何當即基因的拷貝數對基因表達的影響?

12. transposable-element對基因表達的影響?

13. 基因的經典結構是什麼樣的?什麼是CDS和UTR?能夠結合目前主流的基因預測工具來看。

14. 轉錄調控和蛋白互做有什麼聯繫和區別?

 

Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)

 

 

待續~

相關文章
相關標籤/搜索