基本概念
基因表達數據反映的是直接或間接測量獲得的基因轉錄產物 mRNA在細胞中的丰度,這些數據能夠用於分析哪些基因的表達發生了改變,基因之間有何相關性,在不一樣條件下基因的活動是如何受影響的。它們在醫學臨牀診斷、藥物療效判斷、揭示疾病發生機制等方面有重要的應用。
目前,高通量檢測基因組 mRNA 丰度的方法主要是 cDNA 微陣列、寡核苷酸芯片,隨着 cDNA 微陣列和寡核苷酸芯片等高通量檢測技術的發展,咱們能夠從全基因組水平定量或定性檢測基因轉錄產物 mRNA。因爲生物體中的細胞種類繁多,同時基因表達具備時空特異性,所以,基因表達數據與基因組數據相比,要更爲複雜,數據量更大,數據的增加速度更快。
基因表達數據中蘊含着基因活動的信息,能夠反映細胞當前的生理狀態,例如細胞是處於正常仍是惡化狀態、藥物對腫瘤細胞是否有效等。對基因表達數據的分析能夠獲取基因功能和基因表達調控信息,這是生物信息學的重大挑戰之一,也是 DNA 微陣列可以在生物醫學領域中普遍應用的關鍵緣由之一。
特色
基因表達數據分析的對象是在不一樣條件下,所有或部分基因的表達數據所構成的數據矩陣。經過對該數據矩陣的分析,能夠回答一些生物學問題。對這些問題的回答,結合其它生物學知識和數據有助於闡明基因的表達調控路徑和調控網絡。揭示基因調控路徑和網絡是生物學和生物信息學共同關注的目標,是系統生物學研究的核心內容。
研究方向
一、分析單個基因的表達水平
根據在不一樣實驗條件下,基因表達水平的變化,來判斷它的功能,例如,能夠根據表達差別的顯著性來肯定與腫瘤分型相關的特異基因。採用的分析方法有統計學中的假設檢驗等。
二、考慮基因組合
將基因分組,研究基因的共同功能、相互做用以及協同調控等。多采用聚類分析等方法。
三、嘗試推斷潛在的基因調控網絡
從機理上解釋觀察到的基因表達數據。多采用反向工程的方法。
基因表達數據一般利用矩陣形式表示,稱爲基因表達矩陣。
基因表達矩陣的行表明一個基因在不一樣環境條件下或不一樣時間點的表達,列表明不一樣條件或樣本下(如組織、實驗條件、處理因素等)全部基因的表達狀況,每一個格子的數據表示特定的基因在特定的樣本中的表達水平。
大量基於 DNA 微陣列實驗的基因表達數據是公開發布在 Internet 網上的,尤爲是學術機構在發表論文時所用的實驗數據均可以避免費提供給全世界的研究人員下載使用。做爲學術論文的補充資料在網上發佈的數據主要是文本文件或 Excel 格式的文件,這些數據每每都是通過歸一化處理後的 Ratio 值或 log 2 (Ratio) ,對於寡核苷酸芯片數據有的是 P/A/M 表示,有的是熒光強度值。由於這些數據文件沒有包含原始的實驗方案、實驗材料、原始掃描圖像、圖像處理方法和數據歸一化方法等信息,對於要比較或整合分析來自不一樣研究小組的基因表達數據是很是困難的。主要緣由是 DNA 微陣列並非在任何客觀的個體上測量基因表達水平,大多數測量值僅僅是基因表達的相對變化,並且使用的並非一個標準化的對照樣本。同時,基因表達數據比基因組序列數據要複雜的多,這些數據僅僅在有具體的關於實驗條件的描述時纔是有意義的,對於不一樣的細胞類型,在不一樣的條件下都有一套轉錄本。所以,基於 DNA 微陣列的基因表達數據存儲量是很是大的,對於具備 20000 個探針的微陣列實驗,以 10um 的分辨率掃描,產生 3 千萬個離散的數據點,若是以 tiff 文件貯存,將佔用約 60Mb 的硬盤空間。
一方面因爲基因表達數據量很是龐大,並且數據中蘊含着豐富的生物學知識,另外一方面因爲這些數據沒有註釋,迫切須要一種標準來描述和存貯 DNA 微陣列基因表達數據,同時創建公共的 DNA 微陣列數據倉庫。目前,收集、存貯微陣列基因表達數據的最有影響的數據庫和網站是 GEO 、 ArrayExpress 和 SMD 。