蛋白質組學數據分析——(1)原理

當前,關於高通量蛋白質組學的研究遠不如NGS這般火熱,網上關於這方面的知識也寥寥無幾,從事這一行也有一段時間了,但還沒好好總結過。加之過段時間可能要去作培訓,因此是時候把知識點總結一下,權當複習。固然整個蛋白質組學研究也算紛繁複雜,不可能面面俱到,並且不少東西我也在學習當中,確定會出現很多紕漏。畢竟這份筆記主要仍是用於自我查漏補缺,要是在此以外還能幫到須要的朋友,也算善莫大焉了。html

這一篇從原理開始講起,後續會依次總結蛋白質組學鑑定、定量、註釋、翻譯後修飾、靶向等基礎內容,固然最後也會講到下游數據分析處理。算法

1、蛋白質組學概述

蛋白質組學是特定系統內蛋白質集合及其相互做用的研究。數據庫

蛋白質組研究本質上指的是在大規模水平上研究蛋白質的特徵,包括蛋白質的表達水平,翻譯後的修飾,蛋白與蛋白相互做用等,由此得到蛋白質水平上的關於疾病發生,細胞代謝等過程的總體而全面的認識,這個概念是在1994年Marc Wilkins首次提出的。工具

爲何要研究蛋白質組學?性能

我想一句話就夠了:蛋白質是生命活動的物質基礎,是生命的執行者。學習

用業內通俗的話說解釋各個組學的做用就是:基因組解釋能發生什麼?轉錄組解釋將發生什麼?蛋白組解釋在發生什麼?代謝組解釋已發生什麼?flex

蛋白質組學是後基因組時代的產物,做爲中心法則的下游,其複雜程度遠遠超過基因組學。基因組的存在是相對穩定的,而細胞和細胞之間的蛋白質組則是隨蛋白質和基因以及環境的生物化學反應而變化的。同一輩子物在生物體不一樣部位、生命的不一樣時期以及不一樣的環境中,具備不一樣的蛋白質表達。ui

人類基因組測序計劃的完成並無給人提供解開生命的密鑰,科學家把興趣轉到蛋白質,但願經過蛋白質組的研究來進一步解開生命的本質。翻譯

2、質譜儀結構及原理

先看下面這張圖,大體說明了蛋白質組學分析鑑定的流程。簡單來講就是樣本製備後分離進入質譜儀中,產出具備質荷比信息的實際譜圖,再和數據庫產生的理論譜圖進行匹配打分,從而推斷出蛋白信息。後續將會詳解這一部分。3d

蛋白質組分析鑑定流程

從上圖咱們可看出高通量蛋白質組學的研究離不開質譜儀,要想理解蛋白質組學數據分析原理,首先就要明白質譜儀的工做原理。

1.質譜儀的發展

質譜儀發展的幾個標誌性階段

上世紀初,JJ. Thomson發明第一臺質譜儀;
40年代,質譜儀用於同位素測定和無機元素分析;
60年代,開始出現氣相色譜-質譜聯用儀應用於有機物分析;
80年代,以電噴霧、基質輔助激光解析電離爲基礎的液相色譜-質譜聯用儀應用於蛋白質等生物大分子檢測。

2.質譜儀結構

簡單來講,質譜儀就是用來測定氣態離子質荷比(m/z)的儀器。首先放個圖,直觀感覺下質譜儀長啥樣。嗯,我以爲比測序儀醜,可是價格卻不比測序儀便宜。
質譜儀

質譜儀類型可分爲無機質譜儀、同位素質譜儀、有機質譜儀、生物質譜儀。後二者用途比較普遍,用於蛋白質組學分析的質譜儀屬於生物質譜儀,主要由如下幾種結構組成。

1)進樣系統
按物質形態,無非氣體、固體、液體三種。按進樣方式,有氣體擴散進樣、直接探針進樣、色譜進樣等。

2)離子源
離子源的做用是將被分析的樣品分子電離成帶電離子,並使其在光學系統做用下聚成必定形狀和能量的離子束,而後進入質量分析器被分離。

離子源可分爲硬源和軟源,硬源離子化能量高,譜圖複雜,可獲得分子官能團信息;軟源能量低,產生碎片少,譜圖簡單,可獲得分子離子峯。常見硬軟電離源如電子轟擊電離源(EI)、化學電離源(CI)、場致電離源(FI)、場解析電離源(FD)、快原子轟擊電離源(FAB)、大氣壓化學電離(APCI)、大氣壓光電離(APPI)、電噴霧電離(ESI)、基質輔助激光解析電離(MALDI)等等。

與GC串聯的離子源有電子轟擊電離源(EI)和化學電離源(CI),經常使用於代謝組學。與LC串聯質譜的離子源有電噴霧離子化(ESI)、基質輔助激光解析電離(MALDI)大氣壓光電離(APPI)等,經常使用於蛋白質組學,也正是ESI和MALDI的發明得到了諾貝爾獎。

ESI採用強靜電場(3-5KV),造成高度荷電霧狀小液滴,通過反覆的溶劑揮發-液滴裂分後,產生單個多電荷離子,電離過程當中,產生多重質子化離子,主要用於LC-MS聯用儀。

MALDI可以使熱敏感或不揮發的化合物由固相直接獲得離子。波長爲1250-775的真空紫外光輻射產生光致電離和解吸做用,得到分子離子和有結構信息的碎片,適於結構複雜、不易氣化的大分子,並引入輔助基質減小過度碎裂。通常採用固體基質,基質樣品比爲10000/1。根據分析目的不一樣使用不一樣的基質和波長。
ESIMALDI

3)質量分析器
質量分析器是質譜儀的核心,將帶電離子根據其質荷比加以分離,以便用於紀錄各類離子的質荷比和豐度信息。一般不一樣類型的質量分析器組合會構成不一樣功能的質譜儀,這就是所謂的串聯質譜。

目前最經常使用的質量分析器有:A.四級杆(Quadrupole);B. 飛行時間(time-of-flight,TOF);C. 離子阱(ion trap);D. 靜電場軌道阱(Orbitrap)。
4種常見的質量分析器

飛行時間質譜 (TOF),分析物的質荷比是根據分析物在真空飛行管中的飛行時間推算出的。飛行時間質譜的質量分析器由調製區、加速區、無場飛行空間和檢測器等部分組成。經過離子源獲得離子之後,離子通過一個加速的區域,全部的離子都會得到一個相同的初始動能,而後它們進入一個沒有電場的區域,不一樣質量的離子具備不一樣的能量,重的離子飛行速度會慢一些,輕的離子飛得快一些,最終離子都會經過整個飛行區域,到達檢測器。飛行時間是與質荷比的平方根成正比的,經過無場區的飛行時間長短不一樣,離子能夠依次被收集檢測出來。這種質量分析器結構簡單、掃描速度快、靈敏度高、質量範圍寬。TOF質譜儀的外表特色就是很是長,爲了讓離子可以儘量跑得遠一些。
AB 4700和Bruker Ultraflex質譜儀

四極杆 (Quadrupole, Q)由四根平行的棒狀電極組成而得名。四根電極分紅兩組,兩個相對的是一組,在相對的電極上加上一個相同的交流電壓和直流電壓,而在相鄰的電極上,則加上相反的交流電壓和直流電壓,經過疊加交流電壓和直流電壓,不一樣質荷比的離子進入四級杆之後,會發生震盪,而後飛行轉圈,當掃描的電壓和頻率必定的時候,只有特定質荷比的離子才能穿過四級杆。經過改變四級杆上的電壓,咱們可讓不一樣質荷比的離子依次穿過質譜儀,到達檢測器。而其它質荷比的離子就會由於偏轉太多,而打到四級杆上,或者從縫隙裏穿出。這種質量分析器結構簡單、體積小,僅用電場不用磁場,掃描速度快,特別適合液相色譜聯機,分辨率不高,對高質量離子有質量歧視效應。四級杆質譜儀的外觀結構比較緊湊。
四級杆

離子阱(ion trap)與四級杆原理相似,所以也稱四級離子阱,它的橫截圖跟四級杆質譜儀是同樣的,只是它的側面開了一個洞,來做離子彈出用的。四級杆質譜儀中,離子是穿過質譜儀飛出去的,而在離子阱質譜儀中,離子不會飛出質譜儀,而是一直在阱裏面,沿着下圖像8字型的軌跡飛行(阱指的就是陷阱,把離子包在裏面一直轉圈)。當掃描電壓達到必定的數值之後,離子會被射出來。比四級杆靈敏度更高,質量範圍大。離子阱分爲線性離子阱和三維離子阱。線性離子阱具備更大的離子容量和掃描速度。也有人將靜電軌道離子阱(Orbitrap)歸併爲離子阱的一類。
離子阱

TOF只能檢測不一樣質荷比的離子,卻不能選擇讓哪些離子留下,而四級杆和離子阱既能夠檢測離子,同時也能夠實現離子的選擇,將想要的離子留在離子阱中,或者說讓特定的離子穿過四級杆。因此四級杆或離子阱又叫質量過濾器,它能夠過濾特定質荷比的離子。因此質量分析器其實包括兩個部分,即質量過濾器和質量檢測器。

Orbitrap的工做原理相似於電子圍繞原子核旋轉。因爲靜電力做用,離子受到來自中心紡錘形電極吸引力,因爲離子進入離子阱以前的初速度以及角度,離子會圍繞中心電極作圓周運動。經過傅立葉變換(Fast Fourier Transform, FFT),獲得頻譜圖。由於共振頻率和離子質量的直接對應關係,能夠由此獲得質譜圖。

另外還有一類經常使用的是傅立葉變換離子迴旋共振質量分析器(FTICR),基於在強磁場中,離子的迴旋頻率與離子質量成反比,因此測量離子的迴旋頻率能夠得到其質量。它無需分離不一樣質荷比的離子,而是在同一時間內同時測量全部離子的質荷比和豐度,最大限度地利用所有離子的信息,因此分析靈敏度高。可是FTICR對真空度要求極高,同時強磁場須要龐大的超導磁鐵產生,因此成本很高。

FTICR和Orbitrap都是是基於離子在場中迴旋運動,經過測定迴旋共振頻率,並進行傅里葉變換,來測定離子質荷比,區別在於Orbitrap用的是電場,而FTICR用的是磁場,因此Orbitrap性價比高,應用更廣。

4)檢測器
如電子倍增器、閃爍檢測器、法拉第杯、照相檢測等。

5)其餘
除此以外,還包括真空系統,使離子能夠穩定地飛行,不受其它空氣分子的干擾。計算機系統,實現質譜儀的控制和數據的採集。氣體系統,氣體供應和廢氣處理(氮氣、氬氣)。電力供應,UPS不間斷電源系統。

3. 質譜儀參數

評估一臺質譜儀的性能,一般有如下指標:

1)檢測限
與三倍噪音至關的物質的量,能夠理解爲這是質譜儀可以檢測到的最低含量化合物的濃度。一般會用利血平來做爲一個標準的化合物測定質譜儀的檢測限。

能夠認爲,靈敏度與檢測限評估的是同一種性能。

2)線性範圍
表示在什麼樣的濃度範圍以內,質譜儀檢測到的信號與樣品濃度之間成線性的關係。也就是說在這個濃度範圍內的樣品用這臺質譜儀檢測是比較合適的,高於或低於這個濃度範圍的樣品,須要濃縮或者稀釋後才能用這臺質譜儀檢測。

通常質譜儀的線性範圍在3-6個數量級,即1,000—1000,000範圍內。而大部分質譜儀在1000 – 10,000這個範圍內。

這個參數的意義在於,當咱們的樣品在一個比較寬的濃度範圍內時,若是質譜儀的線性範圍很是好,就不須要濃縮低濃度的樣品,也不須要稀釋高濃度的樣品,能夠直接進樣,這樣就能夠大大減小樣品前處理的複雜程度,節省時間和實驗步驟。

3)分辨率

即咱們一般所說的高分辨質譜。
image.png
分辨率就是質譜儀能夠分辨最靠近的兩個質譜峯的質量差值。當兩峯重疊部分的高度不超過任何一個質譜峯峯高10%時,通常認爲這是兩個可分離的峯,測定其中任何一個質譜峯的半峯寬(即峯高一半處的峯寬),而後用任何一個峯的質荷比除以半峯寬,就能夠獲得分辨率。

目前高分辨質譜儀的分辨率能夠達到50,000-100,000的數量級,通常的四級杆能夠達到5,000-10,000。
image.png
上圖圈出的峯在低分辨率時只能觀察到一個峯(一個化合物),隨着分辨率上升能夠看出,這實際上是兩個不一樣峯的峯,因此高分辨率能得到更全面的化合物信息。

4)質量準確度
指質譜儀測到的質荷比與它實際的質荷比的差值,除以它真實的質荷比與1,000,000的乘積。因此它是以ppm爲單位的(百萬分之一),這個數值看起來更方便。目前高分辨質譜儀質量準確度在2-5個ppm的範圍以內。

質量準確度高,能夠大大減小候選化合物的數量,提升鑑定的成功率。

分辨率與質量誤差分別評估了質譜儀的精密度與準確性,一般但願二者都高。就像咱們打靶,好比打靶,若每一次都打在不是靶點的同一個點,說明精密度很是高,但準確性卻比較差;若每次打的點很分散,但平均起來的位置恰好在靶心,則說明質量準確性還能夠,但精密度比較差。

目前咱們能用到的高分辨質譜儀,無論是QTOF或者Orbitrap系列,均可以達到50,000以上的分辨率,同時也能夠達到2-3ppm的質量準確性。下圖是目前經常使用質譜儀的重要參數比較:
質譜儀參數比較
對於蛋白質組學研究來說,咱們對質譜儀器性能的最低要求是:分辨率至少在40,000-50,000,質量準確性應該優於5ppm,質量掃描範圍應該在100-3,000,掃描速度是每秒至少得到一張高分辨的一級譜圖和十張高分辨的二級譜圖。

4. 串聯質譜儀

串聯質譜(MS/MS)就是將相同或者不一樣的質譜儀串聯起來,實現串聯或者並聯工做。這樣作一是爲了產生二級碎片離子,二是實現不一樣質譜儀性能的優點互補。

常見的串聯質譜有:

三重四級杆(Triple Quadrupole),或者串聯四級杆,就是把三個四級杆串聯起來,這樣作的主要目的是爲了實現二級質譜的掃描。

四級杆和飛行時間質譜儀串聯到一塊兒,就是咱們常常聽到的Q-TOF,它其實是爲了提升二級質譜的分辨率。

Orbitrap與四級杆/離子阱組合,好比Orbitrap Fusion,Orbitrap Elite等組合。

下面,用三重四級杆的例子來講明串聯質譜儀是如何得到二級碎片離子的。
串聯四級杆

第一個四級杆Q1開啓質量選擇模式,它讓特定質荷比的離子穿過質譜儀,而把其它的離子都甩掉(甩到四級杆上或者四級杆的空間當中去)。當特定的離子被選擇好後(稱爲母離子,precursor ion),會進入碰撞池Q2(collision cell,用來碎裂離子)。在碰撞池裏一般入口電壓會高於出口電壓,當母離子進來之後,經過電壓差的做用加速,而後與碰撞池裏的氦氣或氮氣分子發生碰撞、碎裂,造成碎片離子(fragment ions,也稱子離子)。最後,這些碎片離子進入第三個四級杆Q3中進行二級的掃描,獲得二級質譜圖。
二級質譜圖示例

其餘的串聯質譜運行大致是同樣的。

Q-TOF,Bruker生產,Q1四級杆,Q2碰撞池,Q3飛行時間質譜儀。這裏用了一個反射模式飛行(讓離子拐個彎再飛回來),讓離子在更短的空間內能夠飛得更遠一些。

Q-TOF
Orbitrap系列,如Q Exactive質譜儀,Q1也是一個四級杆,Q2是碰撞池,Q3是被一個Orbitrap所取代。

image.png
QE

Orbitrap Elite,Q1離子阱,Q2碰撞池,Q3爲Orbitrap。

Orbitrap Fusion,Q1四級杆,Q2離子阱,Q3爲Orbitrap,同時還有一個碰撞池,總體是一個很是複雜的結構。它的特色是Orbitrap與離子阱能夠同步進行掃描(通常質譜儀的兩個質量檢測器是不能同時掃描的,只能一個作質量檢測,一個作質量過濾),因此掃描速度會更快,性能也更好。Fusion的分辨率可達到240,000 – 960,000。

3、蛋白質組學的鑑定原理

蛋白質組學鑑定經常使用基於二維凝膠電泳和基於質譜兩種方法。

1.基於二維凝膠分離 (2D-Gel)鑑定

這是傳統蛋白質組學鑑定方法。大體原理是2D-Gel根據蛋白的等電點和分子質量的差別,經過等點聚焦和SDS-PAGE分離,經過染色和成像把不一樣電性和大小的蛋白質顯示在凝膠上。

具體來講,就是利用聚丙烯酰胺凝膠(SDS-PAGE)電泳的電荷效應和分子篩效應,使之凝膠電泳遷移率與所帶的電荷多少以及分子大小都有關,電荷越多跑得越快,分子越小跑得越快。
SDS-PAGE 蛋白質凝膠電泳圖
這是蛋白質組學溼實驗經常使用鑑定方法,不是咱們關注的重點。固然在基於質譜技術進行蛋白質鑑定前,也經常用這種方法來進行分離預處理。

2.基於質譜(MS)鑑定

1)鑑定大體流程

常規的蛋白質譜鑑定路線有這麼幾個步驟:
樣本製備:細胞、組織、血液;蛋白複合體;特異修飾蛋白(如磷酸化、糖基化、泛素化等);
樣本分離:1-D gel;2-D gel;LC(liquid chromatograph);
質譜分析:如MALDI-TOF、ESI-MS等;
數據庫搜索:Sequest;Mascot;MaxQuant等;
數據分析:R、Linux、Perl、Python等。

2)色譜分離

色譜/層析(chromatography)是一種分離複雜混合物中各個組分的有效方法。它是利用不一樣物質在由固定相和流動相構成的體系中具備不一樣的分配係數,攜帶樣品的流動相穿過固定相時,因爲樣品各組分理化性質存在差別,與固定相做用力弱的組分,移動速度快;反之,移動速度慢。根據不一樣的保留時間,收集特定屬性的樣品進行進一步分析。色譜有多種,能夠按固定相類型和分離原理進行分類,根據流動相的不一樣可分爲氣相色譜和液相色譜。

根據相互做用類型的不一樣,色譜法可分爲吸附色譜法:物理吸附法,分配色譜法,離子交換色譜法,尺寸排阻色譜法,親和色譜法等等。目前,在蛋白質組學研究中,用得最多的就是分配色譜法,就是根據樣品在固定相與流動相之間溶解度的差別來實現多肽或蛋白的分離。其實是利用了多肽或蛋白疏水性上的差別。

液相色譜儀主要由如下4個部分組成:
色譜柱:玻璃柱+固定相
流動相輸送系統:色譜柱填料很細,只有一點幾微米到幾微米,須要用一個泵來把流動相擠壓下去。因此液相色譜要配一個泵系統,來輸送流動相。
進樣系統:用密封的系統須要一個自動進樣器來完成。
檢測系統:如今經常使用的有紫外或熒光,最簡單的就是用肉眼來觀察是否有樣品流出。
液相色譜

上圖左邊是戴安的液相色譜儀,從上往下依次是泵系統、進樣系統、柱系統和檢測系統,右邊是Waters的液相色譜儀,也是相似的結構。

對於蛋白質組學領域,經常使用的液相色譜儀是納升液相色譜,其特色是色譜柱細,流速慢,減小樣品被流動相稀釋的倍數,從而提升檢測的靈敏度。

高效(高壓/高速)液相色譜(high performance liquid chromatography, HPLC)是目前很經常使用的一種液相色譜方法。其流動相爲液體,在高壓做用下快速流過固定相,分離效能高,靈敏度高,應用範圍廣,柱子可反覆使用。最先洗脫出的是越親水的。

3)液質聯用技術

對於蛋白質組學研究來講,液相色譜和質譜是不能單獨工做的,它們必須聯機工做,才能實現對蛋白質的檢測。

液相色譜儀是在常溫常壓下工做的,柱子是放在空氣中運行的,並且樣品是溶解在流動相(水或有機溶劑)當中的。而質譜儀須要在真空環境下工做,樣品須要從溶液狀態轉化爲氣態,並且須要被電離。因此總的來講,咱們須要一個電離源,能把樣品從常溫常壓的液相狀態直接變成真空中的氣態離子狀態。

電離源要實現的功能有三個:一是去溶劑和睦化,把樣品中的溶劑去掉,將待檢測的多肽分子變成多肽的氣態分子;二是將多肽的氣態分子離子化,讓它們帶上電荷;三是把多肽的氣態離子送到真空當中。

電噴霧電離(ESI)實現了這些,具體過程是這樣的:樣品首先經過一個毛細管噴針被噴出來,進入質譜儀,而在噴針的外面,會用一個鞘氣(sheath gas)來輔助樣品的霧化。對鞘氣進行加熱,當加熱的鞘氣吹到樣品中或者溶液中時,溶液中的流動相或者溶劑就會揮發,就會剩下氣態的離子。同時,在毛細管噴針尖端與質譜儀的入口之間,還會加一個電壓,叫High voltage,對這些待電離的分子,首先溶劑揮發掉,而後分子被氣化,最後在電場的做用下,分子就會變成離子,實現電離的過程。最後,這些離子會被質譜儀入口處的真空抽到質譜儀裏,同時被電場驅動進入質譜儀。因而,就實現了氣化、電離以及真空過渡三重需求。這就是液相色譜與質譜的接口,即ESI電噴霧電離。
ESI原理

簡單來講,色譜用來分離化合物,質譜用來分析純物質的結構。

3.蛋白質組學分析策略

1) Bottom up

目前蛋白質組學分析應用最廣的方法。也是咱們所說的「鳥槍法(shotgun)」,此處的「bottom」指的是肽段,「up」則是由肽段推理爲蛋白的過程。即先將蛋白酶解成肽段,而後經過色譜分離肽段混合物,再用質譜技術將肽段碎裂,根據碎裂譜圖的離子峯信息進行數據庫搜索來鑑定肽段,最後將鑑定的肽段進行組裝、從新歸併爲蛋白。

該方法技術發展成熟,相關的軟件工具及算法都比較多,適合分析複雜樣本。缺點是蛋白序列覆蓋度不完整,聽說覆蓋度僅10%-20%。這就致使氨基酸序列高度類似的蛋白質變體(proteoform)推理不許確,並且因爲是逆向組裝蛋白,不適合進行翻譯後修飾的檢測。

2) Top down

這裏的「top」指的是完整蛋白質分子的質量測定,「down」則是指對完整蛋白的碎裂。無需酶解,經過完整蛋白質的質量及其碎裂譜圖信息能夠實現真正意義上的蛋白質鑑定,序列覆蓋度高(號稱100%),能保留多種翻譯後修飾之間的關聯信息。可是該方法通量較低,不適合分析複雜樣本,在完整蛋白質分離、質譜分析、生物信息學等各方面的技術相對也不完善。

蛋白質譜原理暫時介紹到這裏,主要仍是介紹質譜儀的相關常識,下篇筆記將重點介紹基於串聯質譜以及bottom up方法的蛋白質組學鑑定分析流程。

Ref:
ps:文中部分圖片來自來自中國農業大學生物學院的李溱老師
http://www.crickcollege.com/news/179.html
http://www.crickcollege.com/news/220.html
http://www.crickcollege.com/news/222.html
http://www.crickcollege.com/news/233.html
https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
https://wenku.baidu.com/view/85e9bbe9a5e9856a571260a0.html

相關文章
相關標籤/搜索