文獻名:Identification of candidate plasma protein biomarkers for cervical cancer using the multiplex proximity extension assay(利用多重鄰位延伸分析技術進行宮頸癌血漿蛋白候選生物標記物的鑑定研究)機器學習
期刊名:Molecular & Cellular Proteomics函數
發表時間:2019.04.01學習
IF:5.232編碼
單位:spa
1. 烏普薩拉大學設計
2. 烏普薩拉科學園blog
3. 于默奧大學隊列
物種:人類血漿ip
技術:靶向蛋白質組學it
1、概述:
該研究利用多重鄰位延伸分析技術(PEA)進行宮頸癌患者的的血漿蛋白質進行鑑定。在宮頸癌患者和對照組中共靶向測定並準肯定量了100個蛋白,其中80個蛋白在癌症患者組中含量增長,11種蛋白(PTX3, ITGB1BP2, AXIN1, STAMPB, SRC, SIRT2, 4E-BP1, PAPPA, HB-EGF, NEMO, IL27)在區分患者組和對照組中具備0.96的靈敏度(真陽性率)和1.0的特異度(真陰性率)。在前瞻性複製隊列研究中,該模型在區分診斷爲宮頸癌時收集的樣本和診斷爲宮頸癌前收集樣本中,具備0.78的靈敏度和0.56的特異度。若將診斷前樣本或治療後樣本與對照組進行比較,則蛋白組上並沒有顯著差別。
2、研究背景:
在女性癌症中,宮頸癌是第三大常見癌症。宮頸癌是因爲致癌型人乳頭瘤病毒(HPV)的持續感染所致。在有宮頸癌監測的國家中,宮頸細胞學檢測手段(Pap smear)是最爲廣泛的。但因爲細胞學檢測靈敏度較低,故美國也將HPV檢測做爲聯合檢測手段。雖然與細胞學檢測相比HPV檢測具備更高的靈敏度,但因爲HPV暫時性感染的高患病率,單獨的HPV檢測對於宮頸癌診斷呈現出較低的特異度。目前,雖然有許多代謝物研究力圖在HPV陽性的女性中進行宮頸癌的早期檢查,但目前尚無任何一個可應用到臨牀。該研究經過PEA的方法,力圖在可能發展爲宮頸癌的女性中鑑定到合適的血漿蛋白生物標記物。
3、實驗設計:
4、研究成果:
1.通過質控過濾和數據前處理後,在發現隊列和重複隊列中鑑定並定量到100個蛋白;在發現隊列中,48個蛋白存在顯著性差別;28個蛋白在病人組顯著上調。在重複隊列中,診斷當日收集的血漿組(Case)和至少診斷前3年收集的血漿組(Ctrl)之間,13個蛋百存在顯著差別;其中p-value最小(5.97 x 10-17)的蛋白爲PTX3,其歸一化後箱線圖見圖1。
圖1.重複隊列中PTX3歸一化後在Case組和Ctrl組中含量箱線圖
2.發現隊列中,共有80個蛋白在病人組中高於對照組,經過樸素貝葉斯的機器學習方法創建模型,在訓練集中靈敏度0.98(95% CI 0.93-1.0),特異度1.0(95% CI 1.0-1.0),見圖2-1;驗證集中靈敏度0.96(95% CI 0.89-1.0)特異度1.0(95% CI 1.0-1.0),見圖2-2。
圖2-1,80個蛋白模型中,訓練集ROC曲線 圖2-2,80個蛋白模型中驗證集ROC曲線
將該模型應用到重複隊列的數據中,其各組在樸素貝葉斯模型下輸出值,各組與對照組進行分類的ROC曲線下AUC值以及ROC曲線分別展現於圖2-3,2-4,2-5中,其中[-6166,-1328]表明該組數據的採集時間爲診斷前6166天到1328天之間;[-1323,-1] 表明該組數據的採集時間爲診斷前1323天到1天之間;[0,0]表明該組數據的採集時間爲診斷當天;[28,1605]表明該組數據的採集時間爲診斷後28天到1605天之間;[1629,7022]表明該組數據的採集時間爲診斷前1629天到7022天之間。
圖2-3,80個蛋白模型中重複隊列下各組輸出值 圖2-4,80個蛋白模型中,重複隊列中各組與[-6166,-1328]組在ROC曲線下的AUC值
圖2-5[-6166,-1328]與[-1323,-1],[-6166,-1328]與[0,0],[-6166,-1328]與[28,1605]以及[-6166,-1328]與[1629,7022]各組在80個蛋白模型中的ROC曲線
發現隊裏中,80個蛋白中利用caret包中的rfe函數選擇變量後,運用樸素貝葉斯方法從新構建了一個有11個蛋白(PTX3, ITGB1BP2, AXIN1, STAMPB, SRC, SIRT2, 4E-BP1, PAPP-A, HB-EGF, NEMO , IL-27)組成的新模型,其在訓練集中靈敏度0.96(95% CI 0.89-1.0),特異度1.0(95% CI 1.0-1.0);驗證集中靈敏度0.96(95% CI 0.89-1.0)特異度1.0(95% CI 1.0-1.0)。將該模型應用到重複隊列的數據中,其各組在樸素貝葉斯模型下輸出值,各組與對照組進行分類的ROC曲線下AUC值以及ROC曲線分別展現於圖2-6,2-7,2-8中。
圖2-6,11個蛋白模型中重複隊列下各組輸出值 圖2-7,11個蛋白模型中,重複隊列中各組與[-6166,-1328]組在ROC曲線下的AUC值
圖2-8[-6166,-1328]與[-1323,-1],[-6166,-1328]與[0,0],[-6166,-1328]與[28,1605]以及[-6166,-1328]與[1629,7022]各組在11個蛋白模型中的ROC曲線
在重複隊列中,不利用發現隊列中的模型,而是利用該11個蛋白從新進行數據前處理以及建模,在新獲得的模型(II)中,[-6166,-1328](對照組)與[0,0]兩組的AUC爲0.91,但其餘組的AUC並沒有顯著變化。該模型各組輸出值,各組與對照組進行分類的ROC曲線下AUC值以及ROC曲線分別展現於圖2-9,2-10,2-11中。
圖2-9,11個蛋白模型II中重複隊列下各組輸出值 圖2-10,11個蛋白模型II中,重複隊列中各組與[-6166,-1328]組在ROC曲線下的AUC值
圖2-11[-6166,-1328]與[-1323,-1],[-6166,-1328]與[0,0],[-6166,-1328]與[28,1605]以及[-6166,-1328]與[1629,7022]各組在11個蛋白模型(II)中的ROC曲線
3、上述80個蛋白的基因中有916個SNP,11個蛋白的基因中有24個SNP在疾病組和對照組中存在顯著差別(P<0.05)。進行多重假設檢驗矯正後916個SNP中的137個基因依然差別顯著,24個SNP中的11個基因依然差別顯著。編碼11個蛋白的24個顯著差別的SNP中,p-value最小的基由於rs1405(p=0.003),位於編碼PAPP-A的第一個內含子中。總而言之,疾病和對照組蛋白質丰度上的差別彷佛並不受到編碼這些蛋白的宮頸癌相關基因變異的顯著影響。
4、經過進行蛋白與距確診時間的線性模型的創建,來評估各個蛋白做爲宮頸癌早期生物標記物的功效。多重假設檢驗下,80個蛋白中只有兩個蛋白即CCL和FR-alpha在對照和疾病組中差別顯著;11個蛋白中並沒有蛋白在對照和疾病組中差別顯著。
5、發現隊列中在疾病組中顯著上調的28個蛋白中,在[-6166,-1328]組和[28,1605]組中並沒有差別顯著的蛋白;[-6166,-1328]組和[0,0]組相比,有13個蛋白在[-6166,-1328]組顯著上調;[-6166,-1328]組和[1,1323]組相比,只有FR-alpha存在顯著差別,但在多重假設檢驗的校訂下則再也不顯著。
文章亮點:
1、採用了基因組和蛋白質組的聯合分析方法
2、根據不一樣條件選取蛋白質並做爲機器學習的特徵量構建多個模型
3、樣本量較大,既存在生物標記物的發現隊列,又對所創建的模型在重複隊列中進行了驗證,且結果較好
4、在重複隊列中,根據距確診時間的差別,將樣本進行了多組分類,增長了文章的分析維度。
閱讀人:王聚