SAGE|DNA微陣列|RNA-seq|lncRNA|scripture|tophat|cufflinks|NONCODE|MA|LOWESS|qualitile歸一化|permutation tes

生物信息學-基因表達分析算法

爲了豐富中心法則,研究人員使用不斷更新的技術研究lncRNA的方方面面,其中技術主要是生物學上的微陣列芯片技術和表達數據分析方法,方方面面是指lncRNA的位置特徵。
數據庫

 

Background:根據中心法則,發現DNARNAprotein之間的關係,此時認爲找到的RNA所有用於編碼protein,可是實驗結果中:非編碼RNA含量高,而coding區只佔不多的一部分。研究非編碼RNA,發現noncodingprotein expression有關,因此總思路變成了研究noncoding區從而豐富中心法則,而研究noncoding區的前提是轉錄組分析。express

 

轉錄組研究dom

1.依據實際研究的問題,能夠有不一樣的思路函數

時間(生長髮育不一樣階段)特異性工具

空間(身體不一樣區域)特異性測試

Normal 與否編碼

 

  1. 隨着測序技術的發展,出現瞭如下RNA的測序手段

SAGE:將RNA反轉錄獲得的cDNA打碎,利用sanger測序法獲得最後的序列spa

 

 

 

 

DNA微陣列: 將RNA打碎,用基於reference的探針(特指基因芯片)測得序列,此方法靈敏性高3d

 

RNA-seq:將RNA打碎,再將片斷RNA反轉錄cDNA,利用二代測序(short readsassembly而成。

 

 

 

 

Long noncoding RNA

定義:

1.由於200bp,因此long

2.由於No protein produce但同時有與coding gene具備類似結構(都有introexon),因此lncRNA長期被認爲是假基因,直到發現其和轉錄調控有關係,纔開始被重視。

起源:

 

 

 

 

 

  1. coding gene mutation變成noncoding gene,因此沒法coding protein
  2. Chromosome重組
  3. sncRNA加倍成爲lncRNA
  4. sncRNA插入coding gene使之喪失功能但長度變長,成爲lncRNA

分類:基於與protein的位置

 

lncRNA發現歷史:

在大規模測序出現以前,只能利用sanger發現單個lncRNA。在完成human genome 以後,基於該數據庫,獲得的芯片,大大加速了lncRNA的發現。隨着二代測序的大規模使用,大量發現結構,所以誕生了基於不一樣算法的assembly&annotation軟件(egscripturetophatcufflinks)。因此,現在的思路是利用不一樣工具處理相同數據,將獲得的不一樣結果集成爲更準確的genome,從而獲得比較可靠的reference。(reviewRinn and Chang2012)可是2015用更多的原始數據用一樣方法重作,發現其中有79%以前沒有的,這是由於原始數據採集更在時間和空間上更爲細緻了。現在,獲得了NONCODE (數量最多dataset)、MITranscript (最新)等各有側重的數據庫。

 

Assembly比對方式:

1.交叉--保留

2,存在不交叉的,利用其它參數信息(eg,位置信息)篩選

 

Gene expression 分析:

 

原則:重複&隨機&間隔

Replicationbiologyeg,同一個gene100次獲得100sequence信息) &technical(對於100sequence信息,能夠隨機抽取其中的任意N個,這種抽取作M次),這都是爲了數據能更好的反應客觀事實。

Randomization:不管是抽選或是物理設備參數設定,都要保證隨機性。

Blocking:生物學實驗的連貫性(物理條件一致,eg,一天一個完整實驗,而不是一天全部完整實驗中的一個步驟)

 

以微陣列方法爲例的流程:

在儀器上獲得熒光信號,將這些應該信號按照光的亮度賦值,由圖轉變爲表,該表就是表達譜。根據熒光信號的特色,好比中間較強周圍較弱就比較好,進行質量控制,也就是篩選質量較好的sample。此時,全部gene的表達量都在一個表格裏面,其中使用三張芯片就被叫作生物學重複,以此創造:

 

芯片1

芯片2

芯片3

Gene1

2

4

4

Gene2

5

4

14

Gene3

4

6

8

 

可知芯片1比芯片3的光照程度總體廣泛弱,這多是因爲物理因素形成的。爲了進行比較,要將其數值進行歸一化(normalization),依據比價對象的不一樣,可將方法分爲兩種:

  1. Intraeg,芯片1內部比較不一樣gene表達量(技術是雙通道的MA,歸一化方法是LOWESS
  2. Intereggene1在不一樣芯片上的表達量,(技術是單通道;思路能夠是中位數歸一化或qualitile歸一化

其中,qualitile歸一化 的過程是:

 

芯片1

芯片2

芯片3

Gene1

2

4

4

Gene2

5

4

14

Gene3

4

6

8

不看屬於哪一個gene,在芯片內部進行排序:

 

芯片1

芯片2

芯片3

Mean=10/3

2Gene1

4Gene1

4Gene1

Mean=16/3

4Gene3

4Gene2

8Gene3

Mean=25/3

5Gene2

6Gene3

14Gene2

求均值並寫回去,這樣作是爲了不物理錯誤,物理錯誤會致使整張芯片的效果都很差。不用考慮排序會由於表達量一致而形成偏差,由於實際上不存在表達量徹底一致的狀況:

 

芯片1

芯片2

芯片3

Gene1

10/3

10/3

10/3

Gene2

25/3

16/3

25/3

Gene3

16/3

25/3

16/3

歸一化以後,利用假設檢驗證實實際問題。

當數據服從某種分佈(既有參數)時,可就某些參數(egmean)進行假設檢驗

當數據未知分佈(即無參數),則採用permutation test

使用的理論是t檢驗中的SAM,由於t-test須要有參數,可是如今數據未知參數,因此加入置換測試的方法

SAM"Statistical Analysis of Microarrays" specifically designed for microarray data analysis. It relies on the non-parametric permutation test. SAM is a variant of the t-test. Shown below is an excerpt of Tushner's paper describing the SAM algorithm:

Eg,分爲測試組(treatment)和對照組(control):下圖是它們的數據分佈D

Key

T1

T2

T3

C1

C2

C3

Gene1

1

2

3

4

5

6

 

將其隨機打亂成1000個相似於下方表格的sample

好比其中的2個是:

Key

T1

T2

T3

C1

C2

C3

Mean of T

Mean of C

STDEV of all

Gene1

6

1

2

3

4

5

3

4

1.870828693

Key

T1

T2

T3

C1

C2

C3

Mean of T

Mean of C

STDEV of all

Gene1

5

1

2

3

4

6

2.666666667

4.333333333

1.870828693

其中,S0是給定值,d能夠認爲是改良版的t值,如此獲得1000t值,這1000t值可構成正態分佈統計圖表,最後根據整體分佈,找到數據分佈Dp值,然後根據該p值判斷假設檢驗的結果。

 

由此,能夠獲得全部基因對應的p值,可是由於p值的錯誤率很高,因此須要採用多重假設檢驗對p值作檢查。

可採用FDR

首先對於每一個基因來講,都有p值,p值的含義是false positive rate(FPR,假正率):q值是false discovery rate (FDR):

 

 

 

 

 

 

由於未知真實狀況,可是從上圖可知真實狀況和估算狀況之間的關係,因此可使用別的方法計算FWER和FDR。

Control of FWER:

The Bonferroni procedure

Tukey's procedure

Holm's step-down procedure 

Control of FDR

Benjamini–Hochberg procedure

Benjamini–Hochberg–Yekutieli procedure

例如,BH:

[公式],

[公式] ,因此q-value的指望便是FDR,因此,求出每一個gene的q-value便可

原先每一個gene都有本身的p值:

可靠gene的p值知足:

可靠gene的q值知足:

 

 其中,k是gene number號,a是本身設定的0.05,m是全部gene個數,在這裏是6; 

 把gene按照p值排序並據公式處理,獲得:

 

 

 若寫爲函數表達則可獲得上圖,有四個gene的p值是可靠的。

 

 

 

 

http://compbio.pbworks.com/w/page/16252887/Differential%20Gene%20Expression%20and%20Hypothesis%20Testing

相關文章
相關標籤/搜索