GSEA 基因集富集分析

http://software.broadinstitute.org/gsea/index.jspjsp

GSEA(Gene Set Enrichment Analysis)是一種生物信息學的計算方法,用於肯定是否存在這樣一個基因集,能在兩個生物學狀態中顯示出顯著的一致性的差別。表達譜數據裏的基因數目衆多,咱們須要對基因進行功能註釋,看哪些基因屬於同一通路,以及該通路上的上調、下調狀況,這就是富集分析了。3d

例如2019年4月在Cancer cell(PMID 30991027)上發表的一篇文章中有一張主圖,就是經過GSEA分析對RNA-seq的數據進行解讀,以下blog

 

 在上圖中,圖A是經典的GSEA富集圖,圖B爲GSEA獲得的通路上調或下調的韋恩圖,圖C和圖D是GSEA分析的NES值,圖E是GSEA通路基因表達值。it

也就是說,只須要2(實驗條件) X 3(生物學重複)個RNA-seq的樣本,咱們就能夠作出上圖。軟件

作轉錄組分析時,你們一般會先篩選差別表達基因,而後再對這些差別表達基因進行功能富集分析。可能很多小夥伴會發現這種狀況,就是由於差別基因過少而富集目標/相關的功能/通路,或者差別表達基因雖然不少,可是沒有命中到感興趣的通路或者GO功能。這種先作差別基因篩選的方式,可能因爲篩選參數的設置不一樣,致使一些關鍵信息的「漏網」。下載

這種狀況下,就能夠試試GSEA分析。GSEA無需先作差別分析,會保留更多更多更全面的關鍵信息。能夠幫助咱們找到那些差別不是很明顯但基因差別趨勢很一致的功能基因集。gc

固然這兩種思路沒有說哪一個更好,實際應用中能解決問題便可。方法

GSEA的分析步驟

1. GSEA軟件的下載im

直接經過GSEA官網進行下載d3

http://software.broadinstitute.org/gsea/index.jsp

 

2. 準備GSEA的輸入文件

GSEA的輸入文件有兩個,分別是gct文件和cls文件。

表達譜數據文件格式以下

數據共7列,第一列爲基因名,第二至七列爲樣本表達,分別是三個Case和三個Control

 

 gct文件中包含表達譜數據

 

 cls文件中包含數據比對條件

 

 3. 運行GSEA

 

最終生成的結果,就是咱們Case和Control兩組樣本相比,差別通路的結果,好比全部通路上調或者下調的狀況。

或者單獨通路的經典GSEA富集圖

相關文章
相關標籤/搜索