發表時間:(2019年4月)算法
IF:3.95數據庫
單位:ide
對象:質譜無標記定量結果搜索引擎
技術:聚類分析設計
1、 概述:(用精煉的語言描述文章的總體思路及結果)orm
本文選擇四個不一樣的數據集,分爲基於譜圖數計數和基於峯值強度計數的無標記定量兩種狀況,對譜圖進行聚類算法分析,提升了低丰度蛋白的可檢測性,並開發了可直接使用的聚類方法的PD節點。對象
2、 研究背景:blog
無標記量化已成爲許多基於質譜的蛋白質組學實驗中的常見作法。近年來,聚類方法能夠改善蛋白質組學數據集的分析的結論已普遍被人們所接受。本文旨在利用光譜聚類推斷額外的肽譜匹配,並提升數據集中的無標記定量蛋白質組學數據的質量,改善低丰度蛋白的定量結果,同時提升了衍生定量數據的準確性,且沒有增長數據集的噪聲。索引
3、 實驗設計:開發
圖 1:基於譜圖計數和基於強度計數兩種方法對LFQ進行聚類以獲得額外PSMs的工做流程。
名詞解釋:
LFQ:Label-Free Quantification,無標記定量;
MGF:Mascot genetic format,一種文件格式;
PSMs:peptide spectrum matches,匹配到的肽段譜圖;
MSGF+/X!tandem:經常使用的搜庫軟件;
MS-Amanda:PD中經常使用的搜索算法;
apQuant:經過質量過濾使LFQ的結果更準確。
4、研究成果:
一、以在酵母蛋白環境下加入不一樣濃度的作了標記的UPS1蛋白的樣品進行常規蛋白分析獲得ms譜圖,這些UPS1蛋白即爲所用樣品中的用來檢測結果的低丰度蛋白,而後在搜庫時選擇是否使用聚類方法並將檢測到的標記低丰度蛋白量進行比對,結果如圖2。能夠看出在低濃度狀況下使用聚類方法檢測到的低丰度蛋白量提高更明顯。
圖 2:橫座標爲加入的不一樣摩爾數的標記UPS1蛋白,縱座標爲檢測到的標記UPS1蛋白量,並根據是否使用聚類算法將結果表示爲橙綠兩種顏色。其中:(A)基於譜圖數計數,分別使用MSGF+與X!Tandem搜索引擎;(B)基於峯強計數,並分爲是否使用MBR(match-between-runs,邊運行邊匹配)兩種狀況。
二、將結果蛋白中有標記的視爲真陽性,屬於背景蛋白的視爲假陽性,經過改變判斷結果蛋白是否達標的閾值,繪製出聚類方法在不一樣狀況下與常規方法效果的比對圖,曲線面積越大說明越能在更低的假陽性率下得到更高的真陽性率。從圖中咱們能夠看出聚類方法在大部分狀況下都對結果有所改善。
圖 3:分別使用limma對(A,B)和edgeR對(C)作出統計分析,橫座標爲假陽性率,縱座標爲真陽性率,線的顏色表明是否使用聚類方法,虛實表明是否使用MBR(A,B)或所用搜索引擎種類(C)。 其中:(A)基於峯強計數,使用三個CPTAC數據集獲得的結果。 (B)基於峯強計數,三種濃度比得出結果。(C)基於譜圖數計數,三種濃度比得出結果。
文章亮點:
本文最大的亮點在於將其開發的光譜聚類算法整合到了普遍使用的PD軟件套件中,使其更容易被更普遍的蛋白質組學界所用。能直接使用的PD節點可在http://ms.imp.ac.at/?goto=spectra-cluster 下載。此外,聚類方法不依賴數據庫,但能夠直接使用庫裏的譜圖,這使其有着更高的靈敏度。