利用GSEA對基因表達數據作富集分析

時間 2019-11-06

標籤利用 gsea 基因表達數據分析简体版

原文原文鏈接

image

Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes).html

用GSEA作富集分析是很是簡單的，結果也很詳細，而且直接出圖；這個軟件發表於2005年，一直都在不斷更新和增長新的功能；軟件基於的數據庫Molecular Signatures Database也會根據新發表的文章進行完善。數據庫

GSEA軟件版本瞭解express

GSEA設計了操做比較簡單的桌面軟件；
GSEA也提供在無網絡狀況下的一個命令操做版本；
基於R的版本，可是2005後再也不提供更新；
GenePattern平臺也有GSEA模塊。

GSEA軟件下載與安裝網絡

GSEA downloadapp

根據本身電腦內存大小下載適合的版本：dom

image.png

GSEA界面jsp

1).圈1所在是導航欄，展現主要操做；
2).圈2是進度欄；當你進行分析時，查看分析進程與成功與否；成功後在此處能夠查看網頁版結果；
3).圈3是主頁面，在此進行各類操做與分析；ide

GSEA運行ui

官網也準備了例子：
Example Datasets(http://software.broadinstitute.org/gsea/datasets.jsp)this

這兒使用P53這個例子：

p53+ 與P53突變癌細胞系的表達譜
Molecular Signatures Database C2數據基因集合

1. 下載數據

P53.cls #表型文檔定義了表達文檔中樣品的表型標籤，使用空格或tab隔開；

P53_collapsed_symbols.gct #基因表達譜數據

P53_hgu95av2.gct #基因芯片表達譜數據

GSEA軟件須要的數據格式可參考：GSEA軟件支持的數據格式

2. 點擊導航欄Load data導入數據

3種不一樣的方法都可以導入數據：

Method 1: Browse for files #上傳各類文件；
Method 2: Load last dataset used #使用最近用過的數據；
Method 3: Drag-and-drop the files hereke #把文件拖曳至此處上傳；

導入例子數據(p53)

P53_collapsed_symbols.gct #基因表達譜數據

P53.cls #表型文檔定義了表達文檔中樣品的表型標籤，使用空格或tab隔開；

導入數據須要沒有報錯: There were NO errors

在Object cache查看導入的數據；

3. Run GSEA

點擊軟件導航欄Run GSEA，選擇數據並進行參數設定；

參數主要分爲三部分：

Required fields: #必須設置的參數

Expression dataset: #選擇要分析的表達數據，P53_collapsed_symbols.gct。

Gene sets database: #選擇基因集 ,Molecular Signatures Database，MSigDB

Number of permutations: #樣品用於置換檢驗檢驗重複次數，通常1000。

Phenetype labels: #選擇表型數據。

collapsed to gene symbols: #默認true,表達數據中探針名轉換成gene symbols;

P53_collapsed_symbols.gct中是已經轉換爲基因名字，不須要這一步，選擇false；

Permutation type： #phenotype用於每一個表型組至少7個樣本的實驗；Gene_set用於表型組樣本數少於7個的時候。

Chip platform: #選擇Chip註釋文件，用於collapsed to gene symbols這一步；

Basic fields: #可選參數

Analysis name: 設定分析結果前綴

Metric for ranking genes：選定對基因打分和排序的模式；

Gene list sorting mode：基因排序能夠選擇使用原值（default）和絕對值。

Gene list ordering mode：基因排序是遞增仍是遞減。

Max size：基因集基因數目上限。

Min size：基因集基因數目下限。

Save results in this folder:結果保存路徑

Advanced fields: # 高級參數

建議使用默認，不要隨意改動。

Collapsing mode for probe sets => 1 gene：#使用芯片數據時，基因表達值的計算；

max_probe (default)：#芯片集中最大值做爲基因表達值；

median_of_probes: #芯片集均值做爲基因表達值

Normalization mode： #富集分數（ Enrichment scores，ES）的標準化方法；

Normalized Enrichment Score (NES)方法：

Randomization mode：

no_balance (default)：徹底隨機抽樣

equalize_and_balance：分別從不一樣表型組抽取相同數目樣本；

4. 運行及處理進程觀察

參數設置完成以後，點擊run開始運行；左下角GSEA reports板塊能夠檢測運行狀況；

Running:正在分析，能夠暫停；
Success:分析成功，點擊Success，能夠查看網頁報告；
Error:分析出錯，點擊Error，查看出錯詳情；

5. 結果查看

5.1 GSEA結果中的統計量：

● Enrichment Score (ES)

● Normalized Enrichment Score (NES)

● False Discovery Rate (FDR)

● Nominal P Value

Enrichment Score (ES)

img

最上面的綠線是遍歷排好序的基因列表是計算ES值的過程：遍歷基因集L ，當基因出如今S中加分，反之減分；加減分值由基因與表型的相關性決定。當分值累積到最大時就是富集分數。

ES值：P_hit -P_miss最大值

預先定義的基因集S；待分析基因列表L；指數P的選擇用來控制ES分佈；r(g_j)=r_j 是定義的基因與表型的相關性係數。

L中第i個基因前有基因j也屬於基因集S，P_hit（S，i）=P_hit（S，i）+|r_j|^p /N_R ；與之相反，L中第i個基因前有基因j不屬於屬於基因集S時，P_miss（S，i）增長。

中間黑線位置表示預約義基因集中基因在排好序的基因列表中的位置；
底部展現基因排列的一個度量分數，正數表示與第一個表型相關，負數表示與第二個表型相關；對於連續性表型的話，正數表示相關，負數表示不相關；

Normalized Enrichment Score (NES)

NES是基於樣本的置換檢驗π,樣本從新抽樣使得基因表達值變化從而影響到基因排序和ES(S, π)。

False Discovery Rate (FDR)

通常狀況下可用FDR<0.25;若是樣本較少以致於Permutation type使用了 gene_set，FDR<0.05更合適。

這兒，FDR有兩種分佈：

img

Nominal P Value

置換檢驗中ES(S)統計分佈中無效假設成立時ES的比率。

5.2 設置的結果生成路徑下會有結果生成：

基因列表排序：例如P53_collapsed_symbols.P53.cls_WT_versus_MUT.rnk

基因集結果網頁版：例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.html

基因集結果統計表：例如AMUNDSON_DNA_DAMAGE_RESPONSE_TP53.xls

以及一些圖。。。。。。

5.3 點擊Success，能夠查看網頁報告

6. Running the Leading Edge Analysis

After running a gene set enrichment analysis, you can use the leading edge analysis to examine the genes in the leading edge subsets of selected enriched gene sets. Genes that appear in multiple subsets are more likely to be of interest than those that appear in only one.

6.1 左邊導航欄點擊Leading Edge Analysis；

6.2 導入數據：點擊Load GSEA Results導入剛纔分析完的P53的結果；