計算Gene co-expression features

Gene co-expression features

下載 co-expression 數據

The following co-expression coefficient features were attained from COXPRESdb.html

http://coxpresdb.jp/download.shtmlexpress

打開這個頁面咱們點擊bulk downloadapp

而後咱們下載budding yeast 文件。this

 

在最下面咱們也能夠看到文件格式的說明url

Under the directory named Hsa.coex.v6, 19777 files will appear.spa

 
 Hsa.coex.v6 ----- 1
               |-- 10
               |-- 100
               |-- ...
               |-- 9997
1
 
 462         8.1   0.596 
 2158       10.9   0.590
 189        12.7   0.574
 ...
 220963  19749.5  -0.163
 130367  19760.5  -0.175

10
 
 80168       4.9   0.553 
 10223       5.8   0.650
 27284       5.9   0.608
 ...
 84058   19772.0  -0.276
 83871   19775.5  -0.304

100
 
 85449      37.9   0.478 
 140807     47.7   0.391
 636        50.2   0.469
 ...
 126969  19269.8  -0.113
 55930   19273.0  -0.082

 

  • Column 1; Entrez Gene ID of an opposite gene of coexpression (19776 genes)
  • Column 2; MR (Mutual Rank) as a final measure of coexpression. Lines are sorted by this value.
  • Column 3; Pearson's correlation coefficient of gene expression pattern
 
 下載後的數據以下圖
Sce.v14-08.G4461-S3819.rma.mrgeo.d文件夾包含4461個文件
每一個文件含有4461行對應4461個GENE ID
 
 

 下載uniport數據

和前面一樣一個問題,它這數據只給了3列,第一列   Entrez Gene ID,第二列MR,第三列COR
蛋白質和   Entrez Gene ID的映射咱們怎麼獲得呢?
經過各類資料。咱們知道 Entrez Gene ID就是ncbi裏的ID,一樣咱們能夠經過uniport下載對應的GENEID.
咱們能夠經過uniport上右邊的筆頭添加 Gene ID列以下圖所示
以後咱們找到Genome annotation 下面的GeneID,打上勾(藏那麼深也逃脫不了個人法眼。 )。這樣咱們就能獲得 GeneID信息了。
 
 
而後咱們把下面的數據下載下來。
 
 
到此數據準備工做基本完成。
咱們獲得一個文件夾和一個uniprot和geneid對應關係的文件。
uniprot_to_geneid.csv
 
 
 
Ensemble learning prediction of protein–protein interactions using proteins functional annotations
 獲取論文的 uniprot codes列(idA,idB)
yeast_gold_protein_pair.csv
到這裏咱們的數據已經準備完成了。下面開始寫代碼!

 

代碼的設計

 
 
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Thu Nov 10 10:49:21 2016
  4. @author: sun
  5. """
  6. import pandas as pd
  7. import os
  8. yeast_gold_protein_pair=pd.read_csv('yeast_gold_protein_pair.csv',usecols=['idA','idB'])
  9. GeneID=pd.read_csv('uniprot_to_geneid.csv',usecols=['Entry','Cross-reference (GeneID)'],index_col=0)
  10. #注loc經過標籤選擇數據,iloc經過位置選擇數據
  11. idA=GeneID.loc[yeast_gold_protein_pair.idA,:]
  12. idB=GeneID.loc[yeast_gold_protein_pair.idB,:]
  13. idA.index=range(len(idA))
  14. idB.index=range(len(idB))
  15. mr=[]
  16. cor=[]
  17. for i in range(len(idA)):
  18. GeneIDA=str(idA.iloc[i].values)
  19. GeneIDB=str(idB.iloc[i].values)
  20. ifGeneIDB!='[nan]'andGeneIDA!='[nan]':
  21. GeneIDA=GeneIDA[2:8]
  22. GeneIDB=int(GeneIDB[2:8])
  23. path='Sce.v14-08.G4461-S3819.rma.mrgeo.d/'+GeneIDA
  24. if os.path.exists(path):
  25. coex=pd.read_csv(path,header=None,sep=' ',index_col=0)
  26. ifGeneIDBin coex.index:
  27. mr.append(coex.loc[GeneIDB,1])
  28. cor.append(coex.loc[GeneIDB,2])
  29. else:
  30. mr.append("nan")
  31. cor.append("nan")
  32. else:
  33. mr.append("nan")
  34. cor.append("nan")
  35. else:
  36. mr.append("nan")
  37. cor.append("nan")
  38. yeast_gold_protein_pair['MR']=mr
  39. yeast_gold_protein_pair['COR']=cor
  40. yeast_gold_protein_pair.to_csv('coexpression.csv',index=False)
 
最後咱們能夠獲得一個coexpression.csv的文件,經過查看文件咱們能夠知道,有686對蛋白找不到對應的MR和COR值
 

 總結

 
 
Ensemble learning prediction of protein–protein interactions using proteins functional annotations
就像上面那篇論文所說的同樣,缺失值太多,不適合使用,3006個樣本有686 個缺失值,將近缺乏了四分之一的值。
 



相關文章
相關標籤/搜索