SAGE|DNA微陣列|RNA-seq|lncRNA|scripture|tophat|cufflinks|NONCODE|MA|LOWESS|qualitile歸一化|permutation tes

時間 2019-11-25

標籤 sage dna 陣列 rna seq lncrna scripture tophat cufflinks noncode lowess qualitile 歸一 permutation tes 简体版

原文原文鏈接

生物信息學-基因表達分析算法

爲了豐富中心法則，研究人員使用不斷更新的技術研究lncRNA的方方面面，其中技術主要是生物學上的微陣列芯片技術和表達數據分析方法，方方面面是指lncRNA的位置特徵。
數據庫

Background：根據中心法則，發現DNA與RNA與protein之間的關係，此時認爲找到的RNA所有用於編碼protein，可是實驗結果中：非編碼RNA含量高，而coding區只佔不多的一部分。研究非編碼RNA，發現noncoding與protein expression有關，因此總思路變成了研究noncoding區從而豐富中心法則，而研究noncoding區的前提是轉錄組分析。express

轉錄組研究dom

1.依據實際研究的問題，能夠有不一樣的思路函數

時間（生長髮育不一樣階段）特異性工具

空間（身體不一樣區域）特異性測試

Normal 與否編碼

隨着測序技術的發展，出現瞭如下RNA的測序手段

SAGE：將RNA反轉錄獲得的cDNA打碎，利用sanger測序法獲得最後的序列spa

DNA微陣列：將RNA打碎，用基於reference的探針（特指基因芯片）測得序列，此方法靈敏性高3d

RNA-seq：將RNA打碎，再將片斷RNA反轉錄cDNA，利用二代測序（short reads）assembly而成。

Long noncoding RNA

定義：

1.由於200bp，因此long；

2.由於No protein produce但同時有與coding gene具備類似結構（都有intro和exon），因此lncRNA長期被認爲是假基因，直到發現其和轉錄調控有關係，纔開始被重視。

起源：

coding gene mutation變成noncoding gene，因此沒法coding protein
Chromosome重組
sncRNA加倍成爲lncRNA
sncRNA插入coding gene使之喪失功能但長度變長，成爲lncRNA

分類：基於與protein的位置

lncRNA發現歷史：

在大規模測序出現以前，只能利用sanger發現單個lncRNA。在完成human genome 以後，基於該數據庫，獲得的芯片，大大加速了lncRNA的發現。隨着二代測序的大規模使用，大量發現結構，所以誕生了基於不一樣算法的assembly&annotation軟件（eg，scripture、tophat、cufflinks）。因此，現在的思路是利用不一樣工具處理相同數據，將獲得的不一樣結果集成爲更準確的genome，從而獲得比較可靠的reference。（review：Rinn and Chang，2012）可是2015用更多的原始數據用一樣方法重作，發現其中有79%以前沒有的，這是由於原始數據採集更在時間和空間上更爲細緻了。現在，獲得了NONCODE （數量最多dataset）、MITranscript （最新）等各有側重的數據庫。

Assembly比對方式：

1.交叉--保留

2,存在不交叉的，利用其它參數信息（eg，位置信息）篩選

Gene expression 分析：

原則：重複&隨機&間隔

Replication：biology（eg，同一個gene測100次獲得100個sequence信息） &technical（對於100個sequence信息，能夠隨機抽取其中的任意N個，這種抽取作M次），這都是爲了數據能更好的反應客觀事實。

Randomization：不管是抽選或是物理設備參數設定，都要保證隨機性。

Blocking：生物學實驗的連貫性（物理條件一致，eg，一天一個完整實驗，而不是一天全部完整實驗中的一個步驟）

以微陣列方法爲例的流程：

在儀器上獲得熒光信號，將這些應該信號按照光的亮度賦值，由圖轉變爲表，該表就是表達譜。根據熒光信號的特色，好比中間較強周圍較弱就比較好，進行質量控制，也就是篩選質量較好的sample。此時，全部gene的表達量都在一個表格裏面，其中使用三張芯片就被叫作生物學重複，以此創造：

	芯片1	芯片2	芯片3
Gene1	2	4	4
Gene2	5	4	14
Gene3	4	6	8

可知芯片1比芯片3的光照程度總體廣泛弱，這多是因爲物理因素形成的。爲了進行比較，要將其數值進行歸一化（normalization），依據比價對象的不一樣，可將方法分爲兩種：

Intra：eg，芯片1內部比較不一樣gene表達量（技術是雙通道的MA，歸一化方法是LOWESS ）
Inter：eg，gene1在不一樣芯片上的表達量，（技術是單通道；思路能夠是中位數歸一化或qualitile歸一化圖

其中，qualitile歸一化的過程是：

	芯片1	芯片2	芯片3
Gene1	2	4	4
Gene2	5	4	14
Gene3	4	6	8

不看屬於哪一個gene，在芯片內部進行排序：

	芯片1	芯片2	芯片3
Mean=10/3	2（Gene1）	4（Gene1）	4（Gene1）
Mean=16/3	4（Gene3）	4（Gene2）	8（Gene3）
Mean=25/3	5（Gene2）	6（Gene3）	14（Gene2）

求均值並寫回去，這樣作是爲了不物理錯誤，物理錯誤會致使整張芯片的效果都很差。不用考慮排序會由於表達量一致而形成偏差，由於實際上不存在表達量徹底一致的狀況：

	芯片1	芯片2	芯片3
Gene1	10/3	10/3	10/3
Gene2	25/3	16/3	25/3
Gene3	16/3	25/3	16/3

歸一化以後，利用假設檢驗證實實際問題。

當數據服從某種分佈（既有參數）時，可就某些參數（eg，mean）進行假設檢驗

當數據未知分佈（即無參數），則採用permutation test：

使用的理論是t檢驗中的SAM，由於t-test須要有參數，可是如今數據未知參數，因此加入置換測試的方法

SAM"Statistical Analysis of Microarrays" specifically designed for microarray data analysis. It relies on the non-parametric permutation test. SAM is a variant of the t-test. Shown below is an excerpt of Tushner's paper describing the SAM algorithm:

Eg，分爲測試組（treatment）和對照組（control）：下圖是它們的數據分佈D

Key	T1	T2	T3	C1	C2	C3
Gene1	1	2	3	4	5	6

將其隨機打亂成1000個相似於下方表格的sample：

好比其中的2個是：

Key	T1	T2	T3	C1	C2	C3	Mean of T	Mean of C	STDEV of all
Gene1	6	1	2	3	4	5	3	4	1.870828693
Key	T1	T2	T3	C1	C2	C3	Mean of T	Mean of C	STDEV of all
Gene1	5	1	2	3	4	6	2.666666667	4.333333333	1.870828693