如今作生物和醫學的,不少均可能會和各類組學數據打交道。其中表達譜數據老是最經常使用的,也是比較好測的。即便在工做中不去測序,也能夠利用已有的數據庫去作一些數據挖掘,找一找不一樣表型(好比癌症)對應的marker或者調控的通路。這裏跟你們推薦一款分析表達譜數據的神器GENE-E,親測比較好用,知足經常使用需求,能夠作各類熱圖,聚類,箱圖,類似分析和標記篩選等等,並且很是小巧。html
進入軟件以後,界面以下,這裏顯示的就是基因表達的熱圖(heatmap),其中藍色表示被低調控,紅色表示被高調。橫向是不一樣的細胞系,縱向是不一樣的基因和探針名。java
數據操做數據庫
第一次進入程序能夠利用它自帶的測試數據來上手,以下圖,打開File->OpenExample Data-> CCLE,而後須要幾分鐘來下載數據,別忘記連網。CCLE是Board Institute維護的一個癌症細胞系的數據庫,目前有近千個cell line,有興趣的也能夠去官網看看。測試
等幾分鐘load完數據以後了就能夠挑選感興趣的數據進行分析了。好比能夠在圓圈處敲入skin ovary,即挑選和皮膚癌以及卵巢癌有關的細胞系(此時帶有關鍵詞的列名已經被橙色高亮)。而後點擊黑色箭頭處的圖標,既能夠選中這些列。spa
而後點擊圖中圖標,創建新的熱圖(heatmap)。htm
類似分析blog
對兩種癌症的數據就能夠進行進一步分析。好比咱們能夠分析不一樣細胞系間的類似性,以下圖Tools->Similarity Matrix,點擊ok便可。get
獲得類似性以下圖(這裏爲了計算更快,只取了其中部分數據),其中矩陣中的(i,j)位置對應細胞系i和細胞系j之間的類似性,紅色表示類似度高。矩陣上方和右方的色條表示的是卵巢癌(深藍)或皮膚癌(淺藍)的細胞系。咱們能夠發現一個位置來源的癌細胞都相互之間很像。it
聚類分析數據挖掘
另外咱們也能夠作聚類分析,以下圖,點擊圖標後輸入參數。這裏須要選擇對列(Column)仍是行(Row)聚類。這裏咱們在兩個方向均可以聚類。
聚類結果以下圖,這裏也選擇了一部分(事實上只聚類了顯示的這一部分。。)。跟剛纔的熱圖的區別就是把行和列從新進行了排列,讓更類似的臨近在一塊兒,能夠方便看出被差別調控的基因或者相關模塊。能夠看到有一些基因在皮膚癌中高表達,在卵巢癌中低表達。這些基因就是潛在的皮膚癌的marker,至於如何利用這個軟件作marker分析,咱們下次再說吧。
軟件的下載地址在這裏
須要安裝java,須要機構郵箱來進行註冊。若是沒有機構郵箱,至少認識一個有的童鞋吧。