文獻名:Utilization of the Proteome Data Deposited in SRMAtlas for Validating the Existence of the Human Missing Proteins in GPM(利用SRMAtlas中的已有的蛋白質組數據驗證GPM中人類缺失蛋白的存在)數據庫
期刊名:journal of proteomeide
發表時間:2019.10.24工具
IF:3.780編碼
單位:spa
1、日本Niigata大學翻譯
2、開羅Al-Azhar大學設計
物種:人類blog
技術:生物信息學;LC-MS/MS資源
1、 概述開發
2012年以來,人類蛋白質組計劃(HPP)致力於研究人類全部蛋白質。然而,根據neXtProt(2019−1)的最新發布,大約10%的人類基因仍然沒有充分或沒有實驗證據證實它們在蛋白質水平上的翻譯。它們被歸類爲缺失蛋白(PE2 - PE4)。爲了進一步實現HPP的目標,開發了兩步生物信息學策略,解決了如何利用與缺失蛋白相對應的SRMAtlas肽做爲惟一參考,以探索它們在GPM中的自然對應物。第一步,咱們在GPM中搜索與缺失蛋白相對應的SRMAtlas肽,在35個不一樣的蛋白質組學研究中,新發現了51個缺失蛋白。第二步,咱們根據合成肽和自然肽在SRMAtlas和GPM中的譜圖進行比對,驗證這些新發現的缺失蛋白。結果代表,經譜圖匹配驗證23個缺失蛋白中含有≥2個肽段。
2、 研究背景
人類蛋白質組計劃是一項旨在對人類基因組中編碼的全部人類蛋白質進行編目的世界性項目,經過對每一個已知的人類基因序列識別至少一種蛋白質,驗證人類蛋白的存在。根據neXtProt數據庫最新版本,17694個蛋白質(89.26%)在蛋白質水平上有足夠的實驗證據(PE1),而2129個蛋白質(10.74%)被認爲是缺失的(PE2-PE4),沒有實驗證據。
缺少實驗證據的緣由有:1、沒有表達(沉默基因);2、在某些組織中沒有表達;3、表達水平極低;4、具備極端的物化性質,影響蛋白的溶解和提取;5、存在未知修飾
目前對缺失蛋白的發現速度很慢。GPM(Global Proteome Machine)可從新分析與Peptide Atlas不一樣的LC-MS/MS數據,綜合利用它們的蛋白質組數據有可能加速缺失蛋白的發現。
SRMAtlas是迄今爲止人類蛋白質組中最全面的實驗資源,擁有166174個肽的實驗數據,幾乎涵蓋全部缺失蛋白,本研究的主要目的是利用與缺失蛋白相對應的SRMAtlas肽的實驗數據做爲參考,以探索它們在GPM中的自然對應物。
3、 實驗設計
分爲兩步策略:1、在GPM中尋找與缺失蛋白對應的SRMAtlas肽段(基於肽段一級氨基酸序列);2、基於SRMAtlas中的合成肽段和GPM中的自然肽段的譜圖匹配驗證新檢測到的蛋白質肽段
4、 研究成果
一、 在SRMAtlas數據庫中尋找與缺失蛋白相對應的肽段,利用最新的neXtProt缺失蛋白數據庫,在SRMAtlas中檢索到與1764個缺失蛋白相對應的8796個肽段,。
二、 利用neXtProt中的肽段惟一性檢測工具檢測與缺失蛋白相對應的肽段的惟一性,結果代表與1644個缺失蛋白相對應的6736個肽是長度≥9aa的惟一性肽段(table s1),2060個肽段被過濾掉。對6736個肽段的分佈研究代表超過96%的是至少含有2個肽段(fig2A),這代表SRMAtlas數據庫中不一樣蛋白質組學的研究對驗證缺失蛋白的存在是相當重要的。
三、 使用SRMAtlas數據檢測和驗證GPM中的人類缺失蛋白,基於氨基酸序列,編寫了一個perl腳本在GPM中的1898569個肽中檢索缺失蛋白對應的SRMAtlas中的肽。腳本返回匹配到的肽及其在GPM和SRMAtlas中的註釋。結果是在GPM中檢測到與307個缺失蛋白對應的449個肽段。89個缺失蛋白擁有至少2個自然肽段(fig2B),對89個缺失蛋白的的譜數中位數爲每肽23個譜,一個肽段的最小譜數爲5個譜。(fig3A)
另外,與GPM數據庫中發現的缺失蛋白匹配的最佳PSMs的中位E-value是2400x10-8,最大E-value是9700x10-4(fig3B)。
四、 一些候選的PE1蛋白僅在某些蛋白質組學實驗中被檢出,有趣的是,觀察這些蛋白在不一樣組織和細胞系中的分佈發現(fig4A),大腦是缺失蛋白最易被檢出的區域之一,在一項關於人腦的研究中有6個缺失蛋白被明確。另外4個缺失蛋白在HEK293和HEK293 T細胞中被發現,代表這些細胞系可能爲缺失蛋白的表達提供了溫馨的環境(fig4B)。
5、檢索SRMAtlas中「PE1候選蛋白」的光譜。在SRMAtlas中,經過SRMAtlas查詢工具搜索「PE1候選蛋白」對應的肽段,從不一樣的質譜源(QQQ、QTOF和QTRAP)檢索這些肽段的片斷離子。得到了123個與缺失蛋白對應的光譜。在母離子水平。咱們檢查了GPM和SRMAtlas的一對光譜是否與具備相同母離子電荷和相同m/ z的相同肽序列在0.01 Da差別內匹配(fig5A)。結果代表,從QTOF、QQQ和QTRAP中分別獲得的65、54和73個肽段光譜與GPM中的自然對應物光譜匹配良好。在碎片離子水平,與23個缺失蛋白對應的55個多肽有≥2個多肽 (表1)。值得注意的是,全部QQQ、QTRAP和QTOF光譜中,23個缺失蛋白所對應的碎片離子中,有74%存在m/z的0.02 Da的差別。
5、 結論討論
SRMAtlas是惟一一個含有實驗數據的數據庫資源,這些實驗數據都是針對那些與缺失蛋白質相關的肽段。利用這些數據對缺失蛋白的發現有重要做用。在GPM中搜索SRMAtlas中與缺失蛋白對應的肽,發現了123個自然肽段,它們與51個缺失蛋白匹配。此外,經過匹配GPM和SRMAtlas之間新發現的缺失蛋白的MS/MS譜,這51個缺失蛋白中的23擁有≥2個肽段且≥9aa。最後,咱們建議,挖掘更多的蛋白質組學研究之外的其餘分析PeptideAtlas將幫助咱們發現更多缺失蛋白