作了很久的RNA-seq分析,基因表達也在口頭溜了幾年了,但彷佛總是浮在表面。express
對一件事的瞭解程度決定了你的思惟深度,只想作技工就不用想太多,想作大師就必定要刨根問底。微信
總是說基因表達,那麼什麼是基因表達?咱們測序獲得的基因表達其實只是一種表型,是樣本的一個快照,和普通的身高體重之類的連續型表型相似。網絡
常規的轉錄組分析本質上都是表型分析,clustering、pseudotime、DEG、marker,在這些分析中,每一個基因都是獨立的維度,屬於靜態的分析,此時咱們關注的是某個基因的功能分析,好比RET,功能已經明確,那就能夠用基因表達這個表型來解釋另外一個表型。ide
高通量測序還會有後續的分析,幾萬個基因不可能一個一個的研究,GO和KEGG分析就來了,基因不是互相獨立的,GO term和pathway的概念就來了。GO和KEGG的本質是規範了基因之間的關係。GO整合了全部物種,是從生命系統的角度來統一基因的關係,這種關係只是一個集合;KEGG是針對一個物種來界定基因之間的關係,這種關係是有向圖結構。必須再深刻了解GO和KEGG的製做原理,暫時不深刻。此時咱們開始區分基因類型,蛋白編碼、非編碼、轉錄因子。在這個階段咱們更關注的是基因之間的調控關係。工具
中心法則揭示了生命系統的層級和管道結構,和計算機的通訊系統很相似,就算上游的基礎調控再複雜,下游的蛋白都是決定性因素,因此使人驚歎的是上游調控如此複雜多變,可下游的蛋白確是很是穩定,這說明覆雜多變的調控是很是穩定的。編碼
基因研究的第一步必然是基因的功能,其次纔是基因的調控。spa
那麼如何研究一個基因的功能呢?參考:#基因組觀#基因功能研究的「七大絕招」與「三板斧」 - BioinforCN翻譯
簡單總結一下這篇文章:orm
1. 天地人和,研究基因表達的時空規律來推測功能,這和偵探調查是同樣的,屬於間接推理;blog
2. 患得患失,就是直接操做基因,knock out或down或overexpress,來直接探索基因的功能,屬於直接觀察;
3. 上下求索,由於中心法則是個層級和管道系統,上下游十分明確,從基因的DNA、RNA到蛋白質,一塊兒研究;
4. 十面埋伏,立體論證,作生物的很容易觀察到假陽性,必須多角度論證;
5. 其餘的,misexpression、in vitro/vivo。
不說人類hs了,假設你負責一個全新的物種的基因組和基因功能研究,你如何找到該物種的全部基因呢?
看任何一篇基因組組裝文章都能找到解決方案。那咱們就看看嚴建兵的最新的玉米的NG吧,Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement。
微信文章:《Nature Genetics》| 玉米產量相關基因找到了 | 熱帶玉米基因組及高精度結構變異圖譜成功構建,助力玉米遺傳改良
首先是基因組DNA的組裝,Genome sequencing, assembly and scaffolding,這部分純技術,之後估計都不要組裝了,直接把基因組測出來;
其次就是基因組註釋了,Genome annotation,這部分是咱們如今最感興趣的部分,如何找到一個新物種內的全部基因?
A comprehensive strategy combining de novo gene prediction, protein-based homology searches, RNA sequencing (RNA-Seq) and isoform sequencing (Iso-Seq) of nine tissues (Supplementary Table 6) was used to annotate the genes (Supplementary Fig. 7).
方案來了:
1. 基因是有特殊結構的,因此只要有DNA序列,就能夠作denovo預測;
2. 中心法則告訴咱們DNA、RNA和蛋白質是環環相扣的,全部測RNA-seq和iso-seq能夠間接推出基因;
3. 蛋白測序尚未普及,因此目前都用的同源蛋白序列來反推;
這樣註釋出來的只是很general的基因註釋,能cover絕大多數基因,但某些特殊結構的確定沒法註釋出來。
有了草圖,後面再作實驗的功能研究就會方便不少。
基於高通量測序的前兩步只能告訴你基因組的這個地方是個基因,可是不可能告訴你它的功能;第三步就是基於已有的知識了,作同源推理。因此目前來看全部的生物知識都是來源於實驗的,測序只是一個加速的輔助手段而已。
能夠沒有測序,可是不能沒有實驗,測序是科研加速的催化劑。
文章結果:
GENE FINDING METHODS - broad institute - 很全面
教科書解釋:
目前最火的兩個能夠用高通量測序研究的調控方法:
參考:
Modes of transcriptional regulation
Transcriptional Regulation and Its Misregulation in Disease
項目問題:
如今in vivo和in vitro模型都已成熟,RNA-seq成本你們均可以接受了,CRISPR技術也成熟了,KO一個基因已經變得很是容易,如今發育生物學、生物醫學等都在這麼作:KO一個基因,來探索本身感興趣的生物過程發生了哪些變化。
如今問題來了,KO後表型確定發生了變化,那麼如何把這個表型和基因表達和調控聯繫到一塊兒呢?
這是一個general的問題,解答好了能夠用於任意一個基因的深刻研究。
大致解決方案:
假設檢驗是科研獲取真知的惟一手段,首先咱們必需要一個合理的假設,而後去尋找各類證據來test這個假設。
沒有假設和驗證就不是作科研,那就是一個技工得出一份沒有意義的結題報告。
問題:
1. RNA-seq的建庫方案有哪些?ployA、隨機等。只抓有polyA的MRNA會有哪些優點和缺點?ployA只有mRNA有,因此polyA建庫只能抓到蛋白編碼基因,不多部分地ncRNA。參見連接
2. 細胞核和所有測序的區別?
3. 基因的長度差異到底有多大?
4. 可變剪切和isoform是如何影響蛋白的?
5. KEGG裏面已經有基因的關係了,爲何咱們還要研究基因調控?
6. 蛋白互做網絡的用途和侷限性是什麼?
7. 蛋白是惟一的決定性因素嗎?是的,絕大多數DNA和RNA層面的變化都會最終改變蛋白的功能。好比HSCR的沒法造成ENS就是一個複雜的表型,能夠確定的是某些蛋白的功能執行紊亂了。
8. 基因表達的高低重要,仍是基因表達的on/off重要?
9. 基因是如何找到和定位的?基因的編碼的蛋白是如何肯定的?
10. 如何理解基因之間的關係,是什麼性質的關係?
11. 如何當即基因的拷貝數對基因表達的影響?
12. transposable-element對基因表達的影響?
13. 基因的經典結構是什麼樣的?什麼是CDS和UTR?能夠結合目前主流的基因預測工具來看。
14. 轉錄調控和蛋白互做有什麼聯繫和區別?
Typical structure of a mature eukaryotic mRNA (AUG, UAA/UAG/UGA)
待續~