生物信息學-基因表達分析算法
爲了豐富中心法則,研究人員使用不斷更新的技術研究lncRNA的方方面面,其中技術主要是生物學上的微陣列芯片技術和表達數據分析方法,方方面面是指lncRNA的位置特徵。
數據庫
Background:根據中心法則,發現DNA與RNA與protein之間的關係,此時認爲找到的RNA所有用於編碼protein,可是實驗結果中:非編碼RNA含量高,而coding區只佔不多的一部分。研究非編碼RNA,發現noncoding與protein expression有關,因此總思路變成了研究noncoding區從而豐富中心法則,而研究noncoding區的前提是轉錄組分析。express
轉錄組研究dom
1.依據實際研究的問題,能夠有不一樣的思路函數
時間(生長髮育不一樣階段)特異性工具
空間(身體不一樣區域)特異性測試
Normal 與否編碼
SAGE:將RNA反轉錄獲得的cDNA打碎,利用sanger測序法獲得最後的序列spa
DNA微陣列: 將RNA打碎,用基於reference的探針(特指基因芯片)測得序列,此方法靈敏性高3d
RNA-seq:將RNA打碎,再將片斷RNA反轉錄cDNA,利用二代測序(short reads)assembly而成。
Long noncoding RNA
定義:
1.由於200bp,因此long;
2.由於No protein produce但同時有與coding gene具備類似結構(都有intro和exon),因此lncRNA長期被認爲是假基因,直到發現其和轉錄調控有關係,纔開始被重視。
起源:
分類:基於與protein的位置
lncRNA發現歷史:
在大規模測序出現以前,只能利用sanger發現單個lncRNA。在完成human genome 以後,基於該數據庫,獲得的芯片,大大加速了lncRNA的發現。隨着二代測序的大規模使用,大量發現結構,所以誕生了基於不一樣算法的assembly&annotation軟件(eg,scripture、tophat、cufflinks)。因此,現在的思路是利用不一樣工具處理相同數據,將獲得的不一樣結果集成爲更準確的genome,從而獲得比較可靠的reference。(review:Rinn and Chang,2012)可是2015用更多的原始數據用一樣方法重作,發現其中有79%以前沒有的,這是由於原始數據採集更在時間和空間上更爲細緻了。現在,獲得了NONCODE (數量最多dataset)、MITranscript (最新)等各有側重的數據庫。
Assembly比對方式:
1.交叉--保留
2,存在不交叉的,利用其它參數信息(eg,位置信息)篩選
Gene expression 分析:
原則:重複&隨機&間隔
Replication:biology(eg,同一個gene測100次獲得100個sequence信息) &technical(對於100個sequence信息,能夠隨機抽取其中的任意N個,這種抽取作M次),這都是爲了數據能更好的反應客觀事實。
Randomization:不管是抽選或是物理設備參數設定,都要保證隨機性。
Blocking:生物學實驗的連貫性(物理條件一致,eg,一天一個完整實驗,而不是一天全部完整實驗中的一個步驟)
以微陣列方法爲例的流程:
在儀器上獲得熒光信號,將這些應該信號按照光的亮度賦值,由圖轉變爲表,該表就是表達譜。根據熒光信號的特色,好比中間較強周圍較弱就比較好,進行質量控制,也就是篩選質量較好的sample。此時,全部gene的表達量都在一個表格裏面,其中使用三張芯片就被叫作生物學重複,以此創造:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
2 |
4 |
4 |
Gene2 |
5 |
4 |
14 |
Gene3 |
4 |
6 |
8 |
可知芯片1比芯片3的光照程度總體廣泛弱,這多是因爲物理因素形成的。爲了進行比較,要將其數值進行歸一化(normalization),依據比價對象的不一樣,可將方法分爲兩種:
其中,qualitile歸一化 的過程是:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
2 |
4 |
4 |
Gene2 |
5 |
4 |
14 |
Gene3 |
4 |
6 |
8 |
不看屬於哪一個gene,在芯片內部進行排序:
|
芯片1 |
芯片2 |
芯片3 |
Mean=10/3 |
2(Gene1) |
4(Gene1) |
4(Gene1) |
Mean=16/3 |
4(Gene3) |
4(Gene2) |
8(Gene3) |
Mean=25/3 |
5(Gene2) |
6(Gene3) |
14(Gene2) |
求均值並寫回去,這樣作是爲了不物理錯誤,物理錯誤會致使整張芯片的效果都很差。不用考慮排序會由於表達量一致而形成偏差,由於實際上不存在表達量徹底一致的狀況:
|
芯片1 |
芯片2 |
芯片3 |
Gene1 |
10/3 |
10/3 |
10/3 |
Gene2 |
25/3 |
16/3 |
25/3 |
Gene3 |
16/3 |
25/3 |
16/3 |
歸一化以後,利用假設檢驗證實實際問題。
當數據服從某種分佈(既有參數)時,可就某些參數(eg,mean)進行假設檢驗
當數據未知分佈(即無參數),則採用permutation test:
使用的理論是t檢驗中的SAM,由於t-test須要有參數,可是如今數據未知參數,因此加入置換測試的方法
Eg,分爲測試組(treatment)和對照組(control):下圖是它們的數據分佈D
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Gene1 |
1 |
2 |
3 |
4 |
5 |
6 |
將其隨機打亂成1000個相似於下方表格的sample:
好比其中的2個是:
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Mean of T |
Mean of C |
STDEV of all |
Gene1 |
6 |
1 |
2 |
3 |
4 |
5 |
3 |
4 |
1.870828693 |
Key |
T1 |
T2 |
T3 |
C1 |
C2 |
C3 |
Mean of T |
Mean of C |
STDEV of all |
Gene1 |
5 |
1 |
2 |
3 |
4 |
6 |
2.666666667 |
4.333333333 |
1.870828693 |
其中,S0是給定值,d能夠認爲是改良版的t值,如此獲得1000個t值,這1000個t值可構成正態分佈統計圖表,最後根據整體分佈,找到數據分佈D的p值,然後根據該p值判斷假設檢驗的結果。
由此,能夠獲得全部基因對應的p值,可是由於p值的錯誤率很高,因此須要採用多重假設檢驗對p值作檢查。
可採用FDR
首先對於每一個基因來講,都有p值,p值的含義是false positive rate(FPR,假正率):q值是false discovery rate (FDR):
由於未知真實狀況,可是從上圖可知真實狀況和估算狀況之間的關係,因此可使用別的方法計算FWER和FDR。
Control of FWER:
The Bonferroni procedure
Tukey's procedure
Holm's step-down procedure
Control of FDR
Benjamini–Hochberg procedure
Benjamini–Hochberg–Yekutieli procedure
例如,BH:
,
,因此q-value的指望便是FDR,因此,求出每一個gene的q-value便可
原先每一個gene都有本身的p值:
可靠gene的p值知足:
可靠gene的q值知足:
其中,k是gene number號,a是本身設定的0.05,m是全部gene個數,在這裏是6;
把gene按照p值排序並據公式處理,獲得:
若寫爲函數表達則可獲得上圖,有四個gene的p值是可靠的。