免疫信息學

http://blog.sciencenet.cn/blog-204973-845856.htmlhtml

 

第一節 免疫信息學源流node

上個世紀中葉充滿科學傳奇。那不只是個DNA雙螺旋結構闡明、分子生物學產生與興起的時代,也是系統論、控制論、信息論紛紛造成問世並引發全球普遍關注的時代,仍是電子計算機走進人類社會併產生重要影響的時代。香農發表了《通訊的數學理論》,奠基了他信息論之父的地位;維納出版了專著《控制論-關於在動物和機器中控制和通信的科學》;貝塔朗菲出版了系統論的表明做《通常系統理論:基礎、發展與應用》。信息科學與計算機註定從一開始就與生命科學有着千絲萬縷的聯繫。維納專著的標題就有動物一詞,貝塔朗菲自己就是生物學家。也就在那時,計算生物學(Computational Biology)、理論生物學(Theoretical Biology)悄然問世。進入上個世紀八十年代,隨着人類基因組計劃的醞釀與實施,數據驅動的生命科學研究開始橫掃一切,生物信息學應運而生,突飛猛進,並不斷滲透或應用到生命科學各學科甚至信息科學的一些前沿領域。react

免疫學也不例外,生物信息學與免疫學的交叉融合造成了生物信息學的一個分支學科:免疫信息學(immunoinformatics)。俄亥俄州立大學已故外科與病理學系教授、移植免疫學家Charles G. Orosz在本世紀初首先創造了immuno-informatics一詞,並將其定義爲研究免疫系統產生、傳遞、處理及存儲信息規律的學科(the study of the principles by which the immune system generates, posts, processes, and stores information)[1, 2]。或許人類偷懶的天性使然,在第239期的諾華基金研討會(Novartis Foundation Symposium)*上,以色列魏茨曼科學院計算機科學與應用數學系的Lee A. Segel教授省掉該詞中間的連字符,immunoinformatics這一詞彙第一次出如今文獻中[3]。在這篇題爲「經過擴散信息網絡的擴散反饋控制免疫系統」的文章中,Segel教授在文中寫道[3]:「ios

免疫系統是研究生物信息處理的絕佳對象。因爲免疫系統自己極爲有趣,加上它在醫學上的重要性,所以,雖然還有許多研究要作,但免疫系統的硬件相對已研究得較爲清楚。在分子水平,顯著的高頻體細胞突變改變了遺傳信息,使B細胞受體更具多樣性。然而,更爲吸引個人是在細胞水平,由於我相信,這一水平的規律,不只決定免疫系統的行爲,並且也能用於其它主要的生物系統,以及非生物的分佈式自主系統。git

脊椎動物擁有許多不一樣類型免疫細胞,總數可達1018個,卻沒有明顯的老王(Boss)。不一樣類型的細胞羣調動起來對付、攻擊各類病原及毒株。此外,免疫系統也參與傷口癒合、組織重建等其它自身穩定任務。大量被稱爲細胞因子的信號分子指導着免疫系統。每種細胞因子具備幾種功能,每種功能受幾種細胞因子的影響。當配體與相應受體結合,一般分泌多種而非一種細胞因子。web

這一超級複雜的分佈式自主系統是如何肯定作什麼,什麼時候作,作到何等程度的?我將從各個方面討論這一問題,着重強調信息的做用。我尤爲要論證基於細胞因子的擴散信息網絡(diffuse informational network)所起的決定性做用。這樣,我也就回應了Orosz關於免疫信息學(immunoinformatics)關鍵做用的建議。其中,免疫信息學被定義爲研究免疫系統產生、傳遞、處理及存儲信息的學科。」算法

2002年10月,諾華基金會資助下的史上首次免疫信息學研討會在倫敦召開,來自實驗免疫學、理論免疫學、生物信息學等各個領域學者暢所欲言[4]。在此次會議上(即第254期的諾華基金研討會),會議主席德國教授Rammensee提出:免疫信息學可分爲硬的、半軟及軟的三個領域,硬領域主要指免疫學相關核酸、多肽序列等數據及數據庫工做,半軟領域指處理免疫數據的方法及各類預測算法、軟件等,軟領域指免疫相關數學模型及其它各種理論免疫學研究[5]。這次研討會迄今,免疫信息學已通過十餘年發展,已經成爲免疫學、生物信息學、計算機科學相結合的前沿領域。數據庫

廣義地講,當前免疫信息學可大致如下兩大領域:express

一是人工免疫系統(Artificial Immune System, AIS)及其應用[6, 7]。所謂人工免疫系統是指根據免疫系統的機理、特徵、原理開發的人工智能算法與系統,如克隆選擇算法、B細胞算法、陰性選擇算法、樹突狀細胞算法等。人工免疫系統已應用到聚類分類、異常檢測、信息安全、智能優化、圖像處理、機器人控制、網絡數據及文本挖掘等衆多領域。該領域學者主要來自計算機與信息科學背景,模擬免疫機制,構建新的算法來解決各類科學及工程實踐問題。該領域的研究內容從字面上看,很是貼近免疫信息學,源自免疫原理,落腳於信息方法。因爲筆者對此領域沒有深刻研究,本章也再也不贅述。api

二是計算免疫學(Computational Immunology)及其應用。全部應用數學、計算機、人工智能、生物信息學方法來處理免疫學數據、分析免疫學問題的研究都屬於計算免疫學,具體內容涵蓋:理論免疫學(Theoretical Immunology)分析,免疫相關數學模型,各種免疫相關數據庫構建,各類免疫相關預測算法、計算工具、網絡服務及其應用如計算疫苗學(Computational Vaccinology)[8, 9]、反向疫苗學(Reverse Vaccinology)[10, 11]、計算機輔助疫苗設計[12]、計算機輔助抗體設計[13]等。一言以蔽之,用計算的方法解決免疫相關科學或工程實踐問題就是計算免疫學,這也是當前免疫信息學的主流方向[14]。有趣的是,這一方向的工做從字面上看,用「信息免疫學」一詞或許更爲貼切,即源自信息學方法,落腳於免疫學問題。本章將結合筆者的科研工做,主要介紹計算免疫學資源及其應用。

第二節 免疫信息學資源

所謂免疫信息學資源,主要是指免疫相關的數據集、數據庫、單機及網絡程序等可以給用戶解決相關問題提供便利與幫助的數據資料和軟件工具。實驗免疫學家、生物技術企業、諮詢機構等做爲這些資源的普通用戶,可能並不太關心相關數據庫如何構建、程序算法細節,但須要了解到哪兒去找特定數據,對於特定問題,什麼軟件好用等等。對於生物技術專業的同窗——將來生命科學的研究者、生物技術的探索者、生物產業的創業者與經營者、政策的制定者與管理者,亦復如是。本節着重介紹開源、免費、共享、方便的網絡免疫信息學資源。

一、免疫學數據庫

在生物信息學研究中,構建專業的數據庫、高質量的數據集是關鍵的基礎性工做。沒有相應的專業數據支持,後續研究工做沒法開展。固然,有了數據仍不夠,還必須有質控標準與措施來保證數據的質量,不然,生物信息學研究就是垃圾進、垃圾出。這就比如實驗生物學研究,必須要有合適的模式生物及獨到可靠的研究材料同樣。

因爲生物技術的飛速發展與信息技術的進步,海量的生物數據產生了,這就須要各類類型的數據庫來存儲、管理、檢索各類類型數據,如核酸序列、蛋白序列、空間結構、表達譜芯片、網絡與通路等。大量生物信息學數據庫產生了,如GenBank[15]、UniProt[16]、MMDB[17]、KEGG[18]等。這些數據庫固然也包含了部分免疫學相關數據,但構建專門的免疫學數據庫對免疫學研究而言無疑更爲專業與方便。自從1970年第一個免疫學數據庫KABAT誕生以來,大批高度專注或涵蓋普遍的免疫學數據庫紛紛登場。本節咱們重點介紹幾個重要的門戶型綜合數據庫及一些具備歷史意義或特點鮮明的專注型數據庫。

(1)免疫遺傳信息的門戶IMGT[19]

IMGT數據庫最初由Marie-Paule Lefranc (Université Montpellier II, CNRS) 建立於1989年,目前已發展成爲全球免疫遺傳信息的門戶。IMGT是「免疫遺傳學(ImMunoGeneTics)」的縮寫,目前包括7個子數據庫。這些子數據庫可分爲序列數據庫(IMGT/LIGM-DB、IMGT/MH-DB、IMGT/PRIMER-DB、IMGT/CLL-DB),基因數據庫(IMGT/GENE-DB)、結構數據庫(IMGT/3D structure-DB) 和單克隆抗體數據庫(IMGT/mAb-DB)。IMGT/LIGM-DB是一個具備詳細註釋的人類和其餘脊椎動物免疫球蛋白(IG)與T細胞受體(TCR)的序列數據庫,目前收錄了來自303個物種的16萬多條序列。IMGT/MH-DB是一我的類主要組織相容性複合物(HLA)的專門數據庫,其中包括世界衛生組織HLA系統命名委員會的官方序列;目前,該數據庫服務器主機放在歐洲生物信息學研究所(EBI)。IMGT/PRIMER-DB是標準化的IG和TCR寡核苷酸探針或引物數據庫;目前該數據庫有來自11個物種的1864條記錄。IMGT/PRIMER-DB提供的信息尤爲適用於正常和病理狀況下的IG和TCR的表達研究、單鏈抗體、噬菌體展現、基因芯片設計。IMGT/CLL-DB是一個新的數據庫,主要收集來自慢性淋巴細胞性白血病患者的IG序列。IMGT/GENE-DB是人類、小鼠、大鼠、家兔IG和TCR基因的數據庫;到目前爲止,它收錄了IG和TCR基因2893個、等位基因4139個。IMGT結構數據庫收錄IG、TCR、MHC空間結構及相關信息,目前有2686個記錄。IMGT/ mAb-DB收錄已上市及臨牀試驗中的單克隆抗體、抗體-受體融合蛋白及其餘免疫應用的融合蛋白,目前有單抗272個、抗體-受體融合蛋白18個,共計420個條目。此外,IMGT網站目前還提供了15個與數據庫配套的在線分析工具。IMGT已普遍用於自身免疫、感染、腫瘤的相關醫學研究、獸醫學研究及抗體生物技術研究中。IMGT的全部資源均可經過其主頁http://www.imgt.org無償使用。

(2)免疫表位信息的門戶IEDB[20]

所謂表位(epitope)就是抗原中能被免疫細胞特異性識別的線性片斷或空間構象性結構,是引發免疫應答和免疫反應的基本單位。表位在免疫學基礎與應用研究中具備核心地位,是疫苗、抗體藥物、腫瘤免疫、移植免疫、超敏反應的結構基礎。IEDB是免疫表位數據庫(Immune Epitope DataBase)的縮寫,建立於2003年。IEDB雖然不是最先出現的表位數據庫,但在NIAID的資助下,通過10年的發展,它已毫無疑問地發展成爲全球免疫表位信息的門戶。目前IEDB收錄的表位及相關信息涵蓋除腫瘤和HIV之外的99%已發表文獻。文本挖掘程序自動掃描了2200萬多篇PubMed文摘;大量專家對其中13000多篇文獻(含7000多篇感染相關文獻、1000多篇變態反應相關文獻、約4000篇自身免疫相關文獻、1000篇移植免疫相關文獻)進行了人工歸類、信息提取與註釋。到筆者撰寫此節爲止,IEDB已提取文獻14718篇,收錄了人類及其它各類動物識別的多肽表位92407個,非多肽表位1831個。IEDB還包含了直接提交及來自FIMM、TopBank等一系列MHC配體數據庫的數據,共有MHC配體(抗原肽)214704條。IEDB收錄的表位不只數量最多,並且質量最好,包含的表位相關的各類背景信息最爲豐富,甚至連實驗細節也不放過。此外,IEDB還提供了一些配套工具用於表位預測與分析[21]。全部IEDB數據及工具都可經過www.immuneepitope.org免費訪問與使用。

(3)免疫多態性數據庫IPD[22]

該數據庫由安東尼.諾南研究所(Anthony Nolan Research Institute)#的HLA信息學小組與歐洲生物信息學研究所緊密合做,建立於2003年,旨在爲研究免疫系統基因的多態性提供方便。IPD目前包括MHC、KIR、HPA、ESTDAB等四個子數據庫。IPD-MHC數據庫收錄了大量物種的MHC序列。這些物種包括:家犬、狼、山狗,家貓,僧帽猴、狨猴、梟猴、松鼠猴、絹猴、葉猴、狒狒、獼猴、白眉猴以及其它猴類,倭黑猩猩、黑猩猩、長臂猿、大猩猩、猩猩等。ESTDAB是一個腫瘤細胞系的數據庫。IPD最具特點的是KIR數據庫和HPA數據庫;KIR收錄了人類殺傷細胞免疫球蛋白樣受體(Killer-cell Immunoglobulin-like Receptors, KIR)共614個各等位基因及相應蛋白質的序列;HPA收錄了人類同種異體血小板抗原數據。這些數據庫都可經過http://www.ebi.ac.uk/ipd無償使用。

(4)HIV數據庫

這是第一個面向病原體的數據庫,收錄得到性免疫缺陷病毒(HIV)的核酸序列、免疫表位、耐藥相關突變及疫苗試驗。其中,HIV分子免疫學數據庫始建於1987年,由洛斯阿拉莫斯國家實驗室開發,最初的目的只是提供一個已知HIV表位的全面列表,包括細胞毒性T細胞表位、輔助性T細胞表位和抗體結合位點。目前這一模式已推廣到其餘病原體,如丙型肝炎病毒(Hepatitis C Virus, HCV)和出血熱病毒(Hemorrhagic Fever Viruses, HFV)。HIV數據庫提供了大量分析工具,如表位比對(QuickAlign)、PeptGen、基序檢索(Motif Scan)、序列定位(Sequence Locator)、ELF(Epitope Location Finder)等等。QuickAlign可用於比對錶位、功能域或其它任何感興趣的蛋白質區域。PeptGen可建立蛋白質的重疊肽圖譜,有助於多肽設計與表位肯定。基序檢索工具可找出蛋白序列中具備某一指定HLA基因型、血清型或超型基序的亞序列。序列定位工具能給出用戶序列相對於HIV參考序列(HXB2)或SIV參考序列(SIVMM239)的位置。整個項目受NIAID資助,全部數據及工具都可經過http://www.hiv.lanl.gov免費得到或使用。

(5)KABAT 數據庫[23]

爲了肯定抗體序列中的抗原結合部位,著名免疫學家Elvin A Kabat(1914-2000)和他的研究小組於1970年創立了KABAT數據庫;這也是第一個免疫學數據庫。如今的KABAT數據庫包括來自許多物種的IG、TCR、MHC及其它免疫相關分子的序列。一方面,新的序列仍在不斷加入KABAT數據庫;另外一方面,該數據庫相關信息分析工具也愈來愈多,這些工具包括關鍵詞搜索、變異性分析和序列比對等。KABAT數據庫及相應工具曾經能夠從http://immuno.bme.nwu.edu免費得到;但如今只有付費註冊才能使用。2003年之後,該數據庫再也不更新,第一個免疫學數據庫就這樣在不適宜的商業模式下成爲殭屍數據庫。

    (6)SYFPEITHI數據庫[24]

1999年,Hans-Georg Rammensee教授及其同事開發了一個關於MHC配體和基序的數據庫—SYFPEITHI。該數據庫的名字來源於第一個直接測序的自然MHC配體,即SYFPEITHI九肽;該配體洗脫自小鼠P815腫瘤細胞的H-2Kd分子。目前,SYFPEITHI數據庫收錄了來自人類和其餘物種(如猿、牛、雞、小鼠等)MHC-I 類和 II類配體的序列7000多條,基序200多種,全部的數據僅來源於文獻。SYFPEITHI數據庫工具可檢索等位基因、基序、自然配體、T細胞表位、源蛋白質/物種及參考文獻。數據庫與EMBL和PubMed數據庫有超連接。SYFPEITHI數據庫提供了一個基於基序打分的表位預測界面,可預測人類及小鼠的多種MHC分子配體,經過www.syfpeithi.de免費在線使用。SYFPEITHI數據庫的脫機版本,可在我的電腦或局域網內使用,但需付費(單機每一年3000歐元)。又一個具備歷史意義的數據庫在商業化模式中迷失。

    (7)未完待續

從半抗原小分子、佐劑、表位、抗原、變應原到抗體,但凡當前免疫學課本上有的,互聯網每每已有相應數據庫。例如:半抗原數據庫(HaptenDB[25]),佐劑數據庫(Vaxjo[26])表位數據庫(Bcipep[27]、CED[28]),保護性抗原數據庫(Protegen[29])、腫瘤抗原數據庫(TANTIGEN、CIDB[30]),變應原及表位數據庫(ALLERDB[31]、Farrp、InformAll[32, 33]、SDAP[34]),抗體數據庫(SACS[35]、Abysis)等等,不一而足。從紙質版到電子版,從平面文件(flat file)到關係型數據庫,從單機到網絡,免疫學數據庫通過幾十年的發展,種類與數量愈來愈多,數據庫的容量愈來愈大,結構也愈來愈複雜。除了這些數據庫外,免疫學相關的測試數據集(Benchmarks)也是重要的資源。因爲篇幅限制,咱們再也不列舉免疫學數據庫及數據集。好事者,可經過 Google等搜索引擎,Nucleic Acids Research、Database及其它專業期刊查詢相關數據庫與數據集。

2. 單機軟件與網絡程序

有了數據的支持,理論免疫學家就能夠經過數學方法創建理論模型,進行模擬仿真;計算免疫學家則可在此基礎上進行數據挖掘,創建新的算法,或用這些數據訓練人工神經網絡、支持向量機,創建新的預測模型並進行測試、評估與分析。這些模型、仿真、算法及預測器每每最終實現爲單機或網絡程序。如前所述,網絡程序已經成爲免疫信息學乃至生物信息學軟件開發的大趨勢,但出於數據安全保密等各類考慮,單機軟件仍受一些公司與研究組的青睞。另一個趨勢是數據庫自帶的分析工具愈來愈多,數據庫與網絡程序的界限日漸模糊。此外,很多時候,解決一個免疫學問題每每須要一系列小的軟件工具與步驟,因爲這些小軟件大都是現成的,所以只須要進行系統集成,造成合理的工做流程便可,這樣的工做可經過諸如Accelrys公司的Pipeline Pilot等平臺來自動化。因爲免疫學相關網絡程序不計其數,本節再也不具體羅列,而在免疫信息學的具體應用中部分說起。

第三節 免疫信息學的應用

免疫學不只是研究分子識別與相互做用的基礎學科,並且貼近應用。FDA近年批准進入市場銷售或臨牀試驗的藥物中,新型抗體與新型疫苗屢拔頭籌。因爲抗體藥物的巨大成功,以新型抗體、新型疫苗開發爲核心的免疫學研究已經成爲世界各國生物技術學術界與產業界全力追捧與投入的領域。與生物信息學相結合免疫信息學研究不只能夠解決一些分子識別的基本生物學問題,並且也必將爲產業界提供新的工具。免疫信息學資源已在生命科學基礎研究與應用開發研究中普遍應用。這裏,筆者結合本身的研究工做進行部分介紹。

1. 表位預測

表位預測是免疫信息學研究的核心問題之一,也是抗體、疫苗、移植免疫、變態反應計算分析的基礎。所以,發現一個重要的新表位和發現一個新基因同樣,都蘊藏着巨大的財富。所以,從IT巨人微軟到世界500強的生物醫藥公司羅氏,都有人在作表位預測研究。1999年,納斯達克上市公司Epimmune(Nasdaq:EPMN)將其發現鑑定的一個可能用於乳癌、肺癌、結腸癌治療的候選"先導表位"做價200萬美圓賣給了給美國Searle公司(世界500強的轉基因寡頭孟山都公司的製藥部)。靠着它的另外一項專利成果泛DR表位PADRE,Epimmune公司還從Elan公司、Pharmexa公司得到了不菲的非獨佔受權費,然後,Genencor公司更爲此付出了6000萬美圓的獨佔性受權費;不只如此,Epimmune公司從此還將享有上述3家公司全部PADRE相關產品的銷售提成。

回到現實,若是咱們將抗原比做一篇文章,那麼表位就比如文章的關鍵詞;而表位簇集區域就比如是摘要。根據表位特異性免疫應答的程度,可將抗原中的表位分爲免疫優點表位、亞優點表位和隱性表位;根據表位對機體的影響,可分爲保護性表位(免疫位)、致病性表位(變應位)、耐受性表位(耐受位);根據識別的免疫細胞,可分爲B細胞表位、輔助性T細胞(Th)表位、細胞毒性T細胞(Tc)表位等。表位預測就比如對抗原這篇文章進行鉤玄摘要。目前有關研究主要是B細胞表位、Th表位、Tc表位的預測上。

   (1)B細胞表位預測

B細胞表位要被抗體識別,只能位於抗原表面。所以,早期的線性B細胞表位預測採用惟象方法(Phenomenological theory),經過計算蛋白亞序列的理化性質或二級結構,利用B細胞表位與上述理化特性或二級結構的相關性進行預測。例如,親水的氨基酸更多位於液相面,而疏水的更多地深埋在抗原內核,所以能夠計算蛋白質序列局部的親水性來間接推斷B細胞表位。對蛋白序列局部理化性質或二級結構傾向的理論計算大多依據相應的屬性量表,這些量表可經過實驗或統計分析獲得。經常使用的量表如Janin可及性量表、Hopp和Woods親水量表、Parker親水量表(示例見圖7-1)、Thornton突出指數量表、Welling抗原性量表等。30多年來,經典量表時有優化更新,對滑窗法的預測性能也有所改進。

圖7-1 基於Parker親水量表的線性B細胞表位預測示例

複雜網絡(Complex networks)已經成爲近年天然科學乃至社會科學諸多學科領域研究的一個焦點與超級熱點。現實世界中的不少系統均可以用複雜網絡的模型來描述與研究,如互聯網、集成電路、電力網、通信網、鐵路網、食物鏈、人際關係網等等。各類網絡在數學上均可以用圖(Graph)來表述。圖論(Graph theory)源於18世紀大數學家歐拉(Leonhard Euler)對規則圖(regular graph)的研究;20世紀50年代,兩位匈牙利科學家Erdös和Rényi的研究使經典圖論出現重大突破,確立了隨機圖理論(Random Graph Theory)。但無論是表徵何種網絡的圖,它們都是由一些基本單元和它們之間的鏈接構成的;在圖論中,咱們一般把前者稱爲節點(nodes)、頂點(vertices)或點(point),把後者稱爲邊(edges)、鏈接(links)或者線(lines)。基於圖論的系統生物學研究已經取得了許多重大成果,食物鏈網絡、大腦皮層神經元網絡、代謝網絡、基因調節網絡等許多生物系統的複雜網絡已被證明具備小世界(small-world)或/和標度無關(scale-free)特性。在基因調節網絡、代謝網絡的研究中,蛋白質(或酶)被簡單地看做爲網絡節點。可是,當把研究聚焦於蛋白質自己或其部分片斷的時候,例如對蛋白質抗原,咱們一樣能夠把抗原看做一個複雜網絡,一個大的「圖」。它的節點是氨基酸殘基,它的邊是氨基酸殘基之間在序列上與空間結構上的聯繫(如圖7-2)。

圖7-2:蛋白質抗原氨基酸殘基網絡示意圖(家兔子宮珠蛋白: 1UTG)

咱們從PDB數據庫中篩選出無冗於、高分辨率的表明性晶體結構640個,以氨基酸殘基爲節點,殘基之間序列上的聯繫(實質是肽鍵)或空間上的聯繫(實質是二硫鍵等其它共價鍵或氫鍵、疏水相互做用、範德華力等非共價相互做用)爲邊,構建了640個抗原的氨基酸殘基網絡。計算這些網絡中每一個氨基酸殘基的鏈接度(Connectivity)、聚類係數(Clustering coefficient)、完形度(Closeness)、間度(Betweeness)等複雜網絡參數,統計推演出基於複雜網絡的4個新量表(見表7-1),即相對鏈接度(Rk)、相對聚類係數(Rc)、相對完形度(Ro)、相對鏈接度(Rb)。

表7-1 基於抗原氨基酸殘基網絡拓撲性質的新屬性量表[36]

咱們把上述新量表用於基於滑動窗的B細胞表位殘基預測。結果顯示,在5個測試數據集中,相對鏈接度(Rk)表現穩定優越,在註釋最完整、質量最佳的HEL數據集中,相對鏈接度的ROC曲線下面積最大,提示預測性能顯著優於Parker親水性(Ph)及Levitt指數(Li)等兩個已知最好的B細胞表位預測量表(見圖7-3)[37]。由於相對鏈接度反應了一個氨基酸殘基在網絡中相鄰氨基酸殘基數目的傾向。偏心在抗原內核的,鄰居通常較多,在表面的,鄰居相對較少。所以,用相對鏈接度來預測B細胞表位能有如此表現也就不奇怪了。

圖7-3相對鏈接度、Parker親水性及Levitt指數預測性能比較

專門的線性B細胞表位預測工具備PREDITOP、ADEPT、PEOPLE、BepiPred[38]等;一些綜合性序列分析軟件,如OMIGA、UWGCG、ANTHEPROT等,也包含了的線性B細胞表位預測功能。線性B細胞表位預測每每是根據蛋白質抗原的氨基酸序列,預測其上可能的B細胞表位區段。因爲B細胞表位在沒有其對應抗體時是不能肯定的,它的存在取決於相應抗體的存在,因此,從學術的角度,目前的線性B細胞表位預測彷佛是個僞命題。但就是這個命題倒是目前大部分抗體公司急需解決,有着重大現實需求的。例如,根據預測結果,用從自然蛋白中篩選出的合成肽段來免疫動物,以期得到的抗多肽抗體能與自然蛋白自己發生交叉反應。這具備重要的實用價值,相應抗體既可用於親和層析,達到分離純化完整蛋白抗原的目的,又可用於免疫組化或其它免疫反應而有助於基礎研究與臨牀診斷,能夠開發爲科研甚至臨牀診斷試劑。當前,人工神經網絡、支持向量機等機器學習方法已用於線性B細胞表位預測,但性能仍不使人滿意。此外,基於噬菌體展現或抗原空間結構的構象表位預測近年來也廣受關注。前者咱們將在後文中單獨論述;後者包括Java語言編寫的基於隨機森林的單機程序Bpredictor[39],網絡程序CEP[40]、DiscoTope[41]及SEPPA[42]等。

   (2)T細胞表位預測

T細胞表位的預測研究肇始於對Th表位的預測。早期的Th表位預測明顯受線性B細胞表位預測思路的影響,很多研究試圖從實驗證明的Th表位中找出它們在理化特性或二級結構上的共同特徵並在必定程度上得到了成功,第一個Th表位預測程序AMPHI就是早期研究的表明做品。二十世紀80年代末90年代初, MHC-I類分子晶體結構的闡明和多種Tc表位基序的發現使Tc表位預測研究率先取得突破。這帶動了MHC- II類分子晶體結構與各類Th表位基序的揭示,使Th表位預測擺脫了B細胞表位預測思路的影響。目前,打分矩陣、隱馬爾可夫模型(Hidden Markov Model,HMM)、比較分子力場分析(comparative molecular field analysis, CoMFA)、比較分子類似性指數分析(comparative molecular silmilarity indices analysis, CoMSIA)、人工神經網絡(artificial neural network , ANN)、支持向量機(Support Vector Machine, SVM)等各類方法都已用於T細胞表位預測。相關單機及網絡程序包括AMPHI、Tepitope、TSites、EpiMer、EpiMatrix、BIMAS、MHCPred、NetMHC、NetMHCpan、NetMHCcons、NetCTL、NetCTLpan、NetMHCII、NetMHCIIpan、MetaMHC[43]、TEPITOPEpan等。這個領域很是熱鬧,因而該領域元老Brusic教授於2009年組織了首屆機器學習在免疫學中的應用——HLA-I類配體預測(MLI)大賽[44]。行筆至此,2012倫敦奧運與第二屆MLI大賽正如火如荼,發揚奧運精神,咱們也參與其中。但願有興趣的同窗從此能加入咱們。

雖然對Tc表位預測的探索起步最晚,但進展最快,研究最深刻,預測最成功,尤爲是基於支持向量機的方法。目前,對Tc表位的預測,研究內容已經不僅限於對MHC-I類分子結合及其結合能力的預測,並且還拓展到對候選Tc表位天然產生可能性及其轉運效率的預測,即對蛋白酶體酶切位點及抗原處理相關轉運蛋白(transporters associated with antigen processing, TAP)的轉運進行預測,範圍涵蓋整個抗原處理與遞呈過程,相關程序如FragPredict、PAProC、NetChop等。此外,近些年的研究愈來愈重視雜合性T細胞表位、超型表位及表位簇集區域的預測。

2. 噬菌體展現

   (1)噬菌體與噬菌體展現

噬菌體(phage)是一類感染細菌的病毒。有些噬菌體,如絲狀噬菌體M1三、fd、f1等,是很是好的表達載體[45]。經過基因工程方法,能夠將外源基因片斷或隨機DNA序列插入噬菌體基因III或VIII中,表達後造成的融合蛋白仍可以自主裝配成噬菌體外殼並將外源蛋白或多肽展現在噬菌體顆粒表面(見圖7-4)。

圖7-4:經過基因III或VIII展現外源序列的M13噬菌體示意圖

噬菌體易於培養,增殖迅速。經過隨機PCR等分子生物學技術,能夠很方便地構建多樣性從數百萬到數百億的噬菌體文庫(phage library)[46]。這就使得生物學家能夠像釣魚同樣,從「魚塘」(噬菌體文庫)裏高效地釣到能與「魚餌(bait)」結合的展現了特定多肽的噬菌體。一般,用來篩選噬菌體文庫的物質被稱爲靶位(target);靶位的自然配體稱爲模板(template)。如圖7-5所示,使用靶位(如細胞、抗體、受體、酶、化合物、半導體材料等),通過幾輪結合、洗脫、增殖的循環淘選(panning),一般能快速從噬菌體文庫中篩出一系列可能與靶位特異性結合的噬菌體;經過DNA測序能快捷、可靠地推導出它們所展現外源多肽的氨基酸序列。這些能與靶位結合的外源多肽,一般模擬了相應模板的特定位點,於是被稱爲模擬肽(mimotope);而上述得到模擬肽的分子生物學實驗流程與技術則被稱爲生物淘選(biopanning)或噬菌體展現(phage display)[47]。

噬菌體展現技術一經問世便迅速發展,並在現代分子生物醫學研究中普遍應用。在基礎研究中,利用噬菌體展現技術能夠預測出表位[48]、其餘蛋白質相互做用位點[49]與網絡[50, 51],肯定藥物做用的靶標蛋白;在應用研究中,噬菌體展現技術可用於開發器官靶向試劑[52]、新診斷試劑[53]、新生物技術藥物[54]和疫苗[55]。尤爲值得一提的是,噬菌體展現技術在基於新型生物材料的新能源如生物鋰電池[56]、氫能源[57]等研究中大放異彩,美國總統奧巴馬曾所以專程參觀了麻省理工學院的相關實驗室。

圖7-5 噬菌體展現技術示意圖(Science 2002)[58]

   (2)噬菌體展現數據中的信號與噪聲

在噬菌體展現實驗的結果中,信號是研究者想要獲得的模擬肽序列,也就是能特異性結合靶位的多肽。可是,因爲噬菌體展現技術自己固有的緣由,在淘選獲得模擬肽的同時,也將不可避免地獲得一些噪聲序列,也就是所謂的靶位無關多肽(target-unrelated peptides, TUP)[59, 60]。這些噪聲序列可分爲兩類。一類是選擇相關TUP (Selection-related TUP, SrTUP),專指發生在噬菌體的結合選擇環節,可以結合篩選體系中某種成分但並不是與靶位特定位點結合的噬菌體展現多肽。因爲靶位自己及淘選體系的複雜性,文庫中的噬菌體除了與研究者期待的靶位位點結合外,還可能與淘選體系中的固相基質(如塑料和磁珠)、檢測放大分子(如鏈親和素、蛋白A)、封閉試劑(如牛血清白蛋白)、污染分子(如胎牛血清中的牛免疫球蛋白、大腸桿菌內毒素)及靶位的其它位點結合。另外一類是增殖相關TUP (Propagation-related TUP, PrTUP),專指發生在噬菌體增殖環節,不是由於能與靶位結合,而是由於具備更快、更強的增殖能力而進入實驗結果裏的多肽[61]。與選擇相關TUP同樣,增殖相關TUP也極其常見,尤爲多見於最爲經常使用的基於M13噬菌體的Ph.D.系列商業化文庫[62]。基於fd-tet噬菌體的文庫增長了抵抗增殖相關噪聲的設計;即使如此,增殖相關噪聲序列仍不時出如今噬菌體展現實驗結果中[61]。實驗結果顯示,增殖相關TUP不只可能混入噬菌體展現的結果中,有的時候甚至會主宰噬菌體展現數據[62]。計算機模擬結果顯示,噬菌體增殖能力的差別即使微小到10%,通過幾輪增殖後也能引發噬菌體文庫克隆丰度的極顯著差別[63]。所以,噬菌體展現的實驗結果每每是模擬肽與靶位無關多肽的混合物。

若是不加區分,將噪聲做爲信號,也就是把噬菌體展現實驗結果中的靶位無關多肽看成模擬肽,不言而喻,其研究結果每每是誤導的和悲劇的。使人遺憾的是,這種狀況至關常見。例如,全球有幾十個研究組都報道過一種序列爲SVSVGMKPSPRP的神奇「模擬肽」。彙總各研究組的實驗結果,提示它可能與40多種不一樣的靶位結合[64, 65]。這些靶位包括:多種器官與組織(如頭髮、皮膚、小鼠腫瘤血管、小鼠胚胎),多種細胞(如神經元、前列腺癌細胞、肝癌細胞、小鼠卵細胞、金黃色葡萄球菌),RNA,DNA,多種抗體,多種酶(如葡萄糖氧化酶、乙酰膽鹼酯酶),多種蛋白(如神經生長因子、艾滋病毒Vif蛋白),多種多肽及各類材料(如磷脂酰絲氨酸脂質體、腦膜炎球菌脂多糖、羥基磷灰石、聚四氟乙烯、墨水染料、單壁碳納米管、鈷納米顆粒、鉑鐵合金及磷化銦、砷化鎵、氮化鎵等半導體材料)結合。難道SVSVGMKPSPRP是無所不能的萬能膠水?實際上,上述多數實驗裏它只是一條增殖相關的TUP。然而,具備諷刺意味的是,至關多的實驗小組把噪聲做爲信號,最終得出了一些錯誤的結論還如獲至寶。

使人欣慰的是,在噬菌體展現領域,不管是實驗研究者仍是理論研究者,都已經開始注意到實驗數據中的噪聲問題。在進行後續研究以前,頗有必要預先減小或儘可能消除實驗數據中的靶位無關多肽,這已逐漸成爲本領域研究者的共識。所以,靶位無關多肽的研究已經成爲近年來噬菌體展現領域實驗與生物信息學研究的熱點。經過採起消減淘選(subtractive panning)、提升靶位結合選擇的嚴謹度、減小淘選次數等各類實驗措施,能在必定程度上減小選擇相關及增殖相關噪聲。可是,僅靠實驗自己的改進並不能完全消除靶位無關多肽,這是由噬菌體展現內在的結合選擇與感染增殖環節所決定的[63]。所以,藉助信息學手段來檢測噪聲序列,進而對噬菌體展現數據進行計算純化等一系列預處理,不失爲省時、省力、省錢的上佳之選。

   (3)噬菌體展現數據預處理研究進展

目前,噬菌體展現數據的預處理方法大致可分爲三類。一是是基於信息論的方法,二是基於TUP序列特徵的方法,三是基於數據庫搜索比對的方法[66]。

早在2004年,Mandava等就根據香農的信息論提出了用信息含量(Information content)這一指標來衡量噬菌體展現結果中每條多肽是信號仍是噪聲[67]。對於噬菌體展現實驗結果中任意一條多肽序列X1X2…XN,其出如今初始文庫中的機率P = P1×P2×…×PN,其中PN表明着初始文庫中某種氨基酸出如今第N位的頻率。多肽的信息含量INFO =﹣㏑(P)。Mandava等所謂的信息含量相似於信息論中的信息熵(information entropy)。Mandava等認爲,初始文庫中越罕見的多肽,信息含量越高,通過幾輪淘選還能出如今結果中,這就越不多是隨機事件,這樣的多肽應該是有意義的信號;反之,越是具備增殖優點的噬菌體,在初始庫中就越常見,信息含量也就越低,若是出如今結果中則極可能是噪聲序列。根據上述假設,他們開發了INFO程序[63]。

2010年,咱們研究組根據Menendez等的綜述,總結了當時全部已知靶位無關多肽的序列特徵,編寫了一個基於TUP序列特徵的靶位無關多肽檢測、報告與濾除程序(SAROTUP,http://immunet.cn/sarotup)[68]。咱們的測試結果顯示,給噬菌體展現實驗數據增長一個基於TUP序列特徵的預處理環節,不只能極大地提升Pepsurf、Mapitope等程序預測蛋白質相互做用位點的性能,還有助於基於噬菌體展現的候選疫苗篩選[68]。

爲了檢測不具有已知TUP序列特徵的靶位無關多肽,咱們接着又構建了一個噬菌體展現實驗結果的數據庫(MimoDB,http://immunet.cn/mimodb),收集了全球各研究組利用噬菌體展現淘選隨機文庫的實驗結果[64]。該數據庫每季度更新,筆者成文時版本有數據1956套,多肽序列16500條,是目前世界上最大、最全的噬菌體展現實驗結果數據庫。去年末,咱們又開發了MimoSearch、MimoBlast等幾個基於該噬菌體展現數據庫的小工具。經過MimoSearch小工具搜索數據庫,能夠查看實驗者提交的多肽序列是否與其它已發表的結果徹底相同。若是多個研究組在淘選實驗中使用的靶位不一樣卻又獲得了徹底相同的多肽序列,那麼相應多肽很可能是噪聲序列,即使它極可能不具有任何已知的噪聲序列特徵。經過MimoBlast小工具可對MimoDB進行全數據庫序列搜索比對,不只能夠找到與實驗者提交多肽序列不徹底相同但高度類似的已發表結果,從而提示靶位無關多肽,還能找出與已知TUP高度類似的多肽從而推導新的TUP序列特徵[65]。目前,這些基於數據庫搜索比對的工具也已集成到了SAROTUP程序的2.0版中。

(4)基於噬菌體展現的表位預測[49]

因爲模擬肽和抗原上的自然表位能與同一抗體結合,因此,一般認爲,模擬肽及其所模擬的自然表位應該具備類似的物理化學性質和空間關係。這是目前全部基於噬菌體展現的表位預測方法共同的假設與前提。在這個假設與前提下,經過比對模擬肽序列(或一套模擬肽的共同序列)與抗原序列,抗原序列中與模擬肽序列匹配(一致或高度類似)的部分可能就是相應的自然表位。這種狀況已獲得很多實驗結果的驗證。可是,在針對蛋白質抗原的體液免疫中,所產生的抗體約有90%所識別的都是空間構象性表位;或者說與抗體結合的絕大多數自然表位在序列上都是不連續。所以,基於噬菌體展現的表位預測,在絕大多數狀況下,模擬肽與抗原在一級結構上沒有或者僅有很是低的類似性。所以,如何把模擬肽合理映射到抗原的空間結構上或分散的抗原序列中,就成爲基於噬菌體展現的表位預測研究的核心問題。目前,相關算法、流程、單機及網絡程序包括PEPTIDE、FINDMAP、EPIMAP、SiteLight、Mapitope、RELIC、3DEX、MIMOX、MIMOP、PepSurf、Pepitope、Pep-3D-Search、EpiSearch、MimoPro、LocaPep、PepMapper等[66]。

   (5)噬菌體展現免疫信息學研究感悟

回顧既往7年咱們在噬菌體展現領域的免疫信息學研究,咱們作了數據集、數據庫、數據預處理軟件、數據解析預測軟件,咱們深深感覺到了計算的力量。僅以咱們的噬菌體展現實驗結果數據庫而言,這讓咱們充分體會到爲何Rammensee教授要將之稱爲hard了。數據的核實、提取及無休止的更正與更新,讓數據庫工做真的很是艱苦hard。固然,Rammensee教授的原意是指這些直接來源的實驗結果的數據是如何hard,如何可靠;而創建在數據之上的算法與預測軟件,那產出就軟了,由於是計算預測結果,但好歹還可經過實驗驗證,因此就算個半軟吧;至於沒法實驗驗證的數學模型與仿真,那就全軟了。這種認識,籠罩整個生物醫學界,那就是:實驗最可靠,實驗是金標準;生物信息學,奇技淫巧罷了,計算的結果靠不住。可是,當咱們蒐集全部噬菌體展現實驗結果到MimoDB數據庫中時,我遇到了實驗研究的各類怪狀;當全部噬菌體展現實驗結果經過MimoDB平臺能夠相互對照後,咱們發現,實驗結果也不都是可靠的,實驗結果也不都是金標準,以子之矛、攻子之盾的地方實在太多。意外地,MimoDB能夠成爲一個噬菌體展現領域的循證生物學分析平臺,能夠幫助實驗研究者消除實驗結果中的噪聲,這就是數據庫的力量。

3. 在抗體研究中的應用

目前,有不少單機及網絡程序可用於抗體的基礎與應用研究的方方面面[13]。例如,使用Abnum可按Kabat、Chothia等三種方式給抗體序列定位編號,從而肯定CDR區[69];使用SUBIM肯定抗體重鏈、輕鏈的亞類[70];使用AbCheck檢查提交的抗體序列中是否可能存在克隆僞跡(cloning artifacts*)或測序錯誤[71];使用SHAB評估抗體的人源化程度[72];使用PAPS預測抗體重鏈與輕鏈堆疊角度(VH/VL packing angle)[73];使用AbM、WAM[74]、SWISS-MODEL[75]、PIGS[76]、RosettaAntibody[77]等創建抗體的三維結構模型。此外,計算方法也可用於抗體親和力成熟、防止凝聚、延長半衰期的設計等各個方面[13]。

免疫信息學已經極大地改變了單克隆抗體產業。目前,抗體測序已成常規,而一旦有了抗體序列,就能夠經過序列分析肯定其重鏈、輕鏈類型而無需實驗確認;經過同源建模、分子對接及動力學等分析更能推斷其相應抗原的大體狀況。咱們與華西醫大合做,對他們經過雜交瘤技術得到的抗蘇丹紅I單抗進行了免疫信息學研究,經過從頭計算與同源建模相結合的方式,得到了其空間結構的理論模型(見圖7-6)。該圖左側爲抗體輕鏈,其綠色、水色、藍色、紫色部分對應LFR、L一、L二、L3;右側爲抗體重鏈,其紅色、水色、藍色、紫色段分別對應HFR、H一、H二、H3。正中凹洞爲抗原結合位點,凹洞底部主要由重鏈骨架區造成,側壁主要由L3和H3造成。整個圖像由經過PMV軟件以分子表面的方式顯示,其中分子表面用MSMS軟件計算。

圖7-6 抗蘇丹紅I單抗可變區空間結構理論模型

咱們在劍橋結構數據庫(Cambridge Structural Database, CSD)中查詢到的蘇丹紅I的晶體結構實驗數據共4條,沒有蘇丹紅II、III、IV晶體結構的實驗數據。使用Gaussian軟件,計算出蘇丹紅I-IV的空間結構。將4條實驗驗數據與理論計算的蘇丹紅I結構進行疊合,發現實驗數據之間RMSD差異居然比與理論結果之間的差別還大,說明計算結果精確可靠。用Autodock4.1將理論計算的蘇丹紅I-IV結構與抗蘇丹紅I單抗模型進行了盲對接與定位對接,獲得了蘇丹紅I(見圖7-7)到蘇丹紅IV與抗蘇丹紅I單抗可能的結合模式。頗爲有趣的是,蘇丹紅I、II與抗蘇丹紅I單抗的抗原結合位點對接結合時構象類似:「2-萘酚」(naphthalen-2-ol)基團在內,其他部分朝外;蘇丹紅III、IV與抗蘇丹紅I單抗的抗原結合位點對接結合時構象類似:2-萘酚」(naphthalen-2-ol)基團在外,其他部分在內。

圖7-7 抗蘇丹紅I單抗-蘇丹紅I相互做用示意圖

在上圖中,抗體輕鏈綠色,重鏈橙色,均按卡通模式顯示。根據CCP4軟件包計算結果,蘇丹紅I在抗原結合袋中與輕鏈的H3四、Q8九、T97(綠字標出)及重鏈的V3七、W4七、E50、V9七、K9八、W103等主要經過範德華力相互做用,圖中僅顯示了這些殘基中直接與蘇丹紅有範德華相互做用的重原子。此外,蘇丹紅I的N13原子與輕鏈T97殘基的OG1之間距離2.69 Å,造成氫鍵(黃色虛線)。抗蘇丹紅I單抗與蘇丹紅II的相互做用與抗蘇丹紅I單抗-蘇丹紅I的相互做用很是類似,蘇丹紅II的N13原子與輕鏈T97殘基的OG1之間距離2.67 Å,氫鍵更強,再也不另圖顯示。

咱們使用了SplitPocket[78]計算了抗蘇丹紅I單抗的抗原結合袋的體積以及蘇丹紅I、II、III、IV分子的體積。在抗蘇丹紅I單抗全部袋結構中,最大的袋位於抗原結合位點,咱們將其稱爲抗原結合袋。它的尺寸爲 5.23 Å × 6.64 Å × 10.36 Å(寬×厚×深度),體積爲359.56 Å3;而蘇丹紅I、II、III、IV分子的體積分別爲228.28 Å三、261.12 Å三、323.76 Å三、356.56 Å3。因爲已有的研究顯示[79]:結合袋每每都要比配體大得多,配體極少可以佔據整個結合袋,因此,以上計算結果顯示,抗蘇丹紅I單抗的抗原結合袋容納結合蘇丹紅I、II分子比較容易,而要容納蘇丹紅III則有些困難,蘇丹紅IV則幾無可能。這些結果,與對接結合能數據也是較爲一致的。總之,咱們免疫信息學的計算分析提示:蘇丹紅I、II能與抗蘇丹紅I單抗的抗原結合位點結合,強度相近;蘇丹紅III可能有較弱的結合,而蘇丹紅IV不大可能與抗蘇丹紅I單抗結合。咱們的結果返回華西后與他們實驗的結果不盡一致!他們的實驗結果顯示,抗蘇丹紅I單抗與蘇丹紅I親和力最高,其次蘇丹紅III,與蘇丹紅II結合較弱,不結合蘇丹紅IV。是實驗錯了仍是咱們的計算不對?後來,咱們的合做者反覆研究,發現當初結合實驗時未考慮蘇丹紅I-IV之間溶解度的差別,糾正後的實驗結果與咱們計算的一致。計算的力量,因而可知一斑!咱們也進一步仔細閱讀他們的專利,發現免疫用的半抗原是蘇丹紅I修飾物(蘇丹紅I號-3-丙酸,Sudan1-C3)而並不是蘇丹紅I自己。Sudan1-C3與OVA、BSA等偶聯後,除了橋聯的羧基碳原子外,其結構比蘇丹紅I多了2個碳原子,而與蘇丹紅II 的一個甲基碳原子正好重疊,另外一個碳原子位置不一樣。所以,Sudan1-C3與蘇丹紅I、II很相近,推測引發的單克隆抗體能與蘇丹紅I、II發生較強交叉反應。

咱們也曾對抗CD147的美妥昔單抗(metuximab)進行過同源建模,其理論模型見圖7-8。該圖左側爲輕鏈,其綠色、水色、藍色、紫色部分對應輕鏈骨架區(LFR)、輕鏈互補決定區一、二、3(L一、L二、L3);右側爲重鏈,其紅色、水色、藍色、紫色段分別對應HFR、H一、H二、H3。美妥昔單抗的抗原結合位點呈兩端開放的扁槽狀,L3和H3構成槽底,L一、L2構成左槽壁,H一、H2構成右槽壁,LFR2區的F49及HFR3區的R94殘基也參與了造成美妥昔單抗的抗原結合位點。從圖中不難看出,針對蛋白質抗原的抗體與先前針對化學小分子的抗體,它們所造成的抗原結合位點形態迥然不一樣。對於任一抗體,經過建模後對抗原結合位點形態的觀察,彷佛就能大概知道其所針對抗原的大體類型。計算之神奇,歎爲觀止矣!

圖7-8 美妥昔單抗三維空間理論模型

4. 在疫苗研究中的應用

疫苗極大地促進了人類健康事業的發展。可是,人類的生命與財產仍面臨巨大的威脅。這些威脅主要體如今如下五個方面。其一,是新的傳染病病原不斷出現,如埃博拉病毒、人類得到性免疫缺陷病毒(HIV)、新的傳染性肝炎病毒、瘋牛病病毒及SARS病毒等。其二,是一些爲人熟知的人畜致病微生物不斷產生新的變種或耐藥性並再次成爲人類生命的殺手與財富的終結者,如大腸桿菌O15七、結核分枝桿菌、口蹄疫病毒、禽流感病毒等。其三,是911後整個世界面臨着日益嚴重的生物恐怖主義威脅,如911後的炭疽恐慌。其四,是大量疑難疾病急需新的治療手段,如癌症的免疫治療。其五,是對藥品及疫苗自己生物安全性的擔心,如傳統疫苗一般使用某種疾病的減毒或滅活的致病原,但這仍可能形成疾病傳播或中。正由於如此,人類社會才迫切須要更快地擁有更多、更安全、更可靠的新的疫苗產品。

就以疫苗最經典的應用領域——傳染病預防爲例,目前已明確的致病微生物超過400中,但只針對其中30多種開發出了上市的疫苗。所以,仍然大量傳染病預防疫苗仍亟待開發。目前的疫苗研發已從傳統的預防性疫苗發展到治療性疫苗,適用範圍從原來單純的傳染病預防發展到對過敏性疾病、自身免疫性疾病、器官移植性疾病、計劃生育、免疫去勢、不孕不育症、老年癡呆、腫瘤防治、戒菸戒毒等各個方面。隨着人類基因組計劃的完成與大量病原微生物基因組的闡明,人類已進入從基因組到候選保護性抗原到保護性表位到個體化定製疫苗的時代,免疫信息學在其中發揮着重要的助推做用。

例如,在表位疫苗設計方面,EpiVax公司設計了iVAX工具包。iVAX是一套根據蛋白抗原序列,設計表位疫苗的免疫信息學工具,包括Conservatrix、EpiMatrix、ClustiMer、BlastiMer、EpiAssembler、Aggregatrix和VaccineCAD等程序。其中,Conservatrix評估九肽片斷在同一病原不一樣毒株之間的保守性;EpiMatrix評估多肽片斷的HLA-I、II分子結合能力;ClustiMer根據EpiMatrix輸出肯定富含T細胞表位多肽羣;BlastiMer評估這些多肽羣與人類基因組間的類似性,類似的序列要麼耐受難以引發免疫應答,要麼形成自身免疫病,所以需去掉;EpiAssembler將保守、特異且富含T細胞表位的多肽羣合起來;Aggregatrix肯定覆蓋最多HLA型別,最多毒株病原的最小一套表位;VaccineCAD將候選表位多肽合理串接,避免因多肽鏈接造成新的表位。

疫苗研究在線信息網(Vaccine Investigation and OnLine Information Network, VIOLIN)也提供了大量疫苗研發相關信息,包括疫苗相關的各類數據庫及程序[80]。其中,Vaxign是一個集成的反向疫苗學在線軟件[81]。它包括兩個部分:一是可直接查詢預先已預測好的結果;二是對提交的新基因組或蛋白序列進行實時交互分析預測。Vaxign集成了一系列軟件,包括:(1)肯定蛋白抗原亞細胞定位的PSORTb,分泌或病原外膜蛋白多是理想的候選靶標,而胞漿及內膜蛋白則不理想;(2)預測蛋白質跨膜方式的TMHMM,跨膜超過1次的蛋白難以克隆、表達、純化,不適宜做爲重組疫苗的抗原;(3)預測粘附及粘附樣分子的SPAAN,粘附樣分子的一般是理想的疫苗靶標;(4)預測MHC-I及II結合能力的Vaxitope,此軟件由He研究組本身開發;(5)分析序列類似性的BLAST,與宿主高度類似的序列要麼耐受要麼致使自身免疫,不是理想的靶標。

最後,舉一個實際案例。腦膜炎奈瑟菌是流行性腦脊髓膜炎(簡稱流腦)的病原菌。根據其莢膜多糖抗原的差別,可將腦膜炎奈瑟菌分爲至少13個血清型,其中致病的主要是A、B、C、Y及W-135血清型。迄今,A、C、Y及W-135血清型的純化多糖疫苗已使用了多年,取得了較好的預防效果;但到目前爲止仍然未能開發出針對腦膜炎奈瑟菌B血清型(MenB)的疫苗。緣由主要是MenB莢膜多糖一段與人唾液酸一致,其莢膜多糖不宜做爲疫苗,而主要的外膜蛋白PorA變異度大,免疫後只能引發毒株特異性保護,不能預防全部MenB感染(見圖7-9)。這樣,MenB致使的流腦愈發常見,已佔美國流腦的1/3,歐洲流腦的45%-80%以上,成爲嚴重的健康威脅。2000年,MenB-MC58株的全基因組測序完成[82],生物信息學方法馬上用於預測其基因,免疫信息學方法馬上用於預測、篩選保護性抗原[83],預測與實驗相結合,很快肯定了在外膜上含量相對較少、但更加保守的幾個保護性抗原如H因子結合蛋白(factor H-binding protein, FHBP)、奈瑟菌粘附素A(Neisseria adhesin A, NadA)及奈瑟菌肝素結合抗原(Neisseria heparin-binding antigen, NHBA)等。正是因爲採用了這種計算加實驗的轉化醫學策略,目前,MenB疫苗已在上市審批中[84]。

圖7-9 腦膜炎奈瑟菌B示意圖

5. 在移植免疫中的應用

人工神經網絡等機器學習方法已經用於移植免疫領域多年;例如,用於預測肝移植排斥、肝移植後他克莫司血藥濃度、輔助診斷腎移植超急排斥、評估腎移植併發症、預測腎移植後鉅細胞病毒感染、預測胰腺移植的預後等。器官移植,最重要的是HLA配型。然而,因爲供者有限,在沒有徹底匹配的狀況下,如何從不徹底匹配的供者選出最合適、最兼容的。美國匹茲堡大學醫學中心的Duquesnoy教授研究該問題10餘年,開發了一系列基於EXCEL的宏程序HLAMatchmaker[85]。因爲該程序要建立臨時文件並要反覆地在EXCEL表格之間剪切粘貼,既費時間又容易出錯,所以Filho等最近開發了基於HLAMatchmaker的EpHLA程序,實現的分析過程的徹底自動化。[86]

6. 在變態反應防治中的應用

民以食爲天。然而,自古以來食物過敏(food allergy)就一直困擾着人類。流傳於民間和傳統醫學中的「發物」之說以及與之相關的種種飲食禁忌,在必定程度上反應了人們對食物過敏的經驗認識。現代醫學與免疫學研究代表,絕大多數食物過敏屬於IgE介導的I型變態反應,通常表現爲哮喘、腹瀉、腹痛、蕁麻疹等;但嚴重的也可能出現危及生命的、與青黴素過敏反應相似的過敏性休克。流行病學調查的數據顯示,食物過敏在成年人中的發病率約爲2 ~4%;而在兒童中則更高達8%;每一年每100萬人中,約32人發生嚴重甚至致命的食物過敏[87]。隨着轉基因農做物的出現及其在食品工業中的普遍應用,公衆對食物過敏的擔心進一步加深。瞭解、獲取食物過敏的相關信息已經成爲公衆的迫切需求。「新買的轉基因玉米會不會有更高的引發食物過敏的風險?」、「我吃豌豆過敏,那吃山裏朋友送來的土特產小扁豆會不會也過敏呢?」人們天然而然會有諸如此類的種種問題。也就是說,公衆迫切須要一個與天氣預報與預警相似的,使用方便、通俗易懂的食物過敏預測、預警與查詢系統。

因爲食物過敏極爲常見,危害普遍,且與公衆平常生活與健康息息相關,美國、日本、歐盟國家及相關國際組織如世界衛生組織(World Health Organization, WHO)、聯合國糧農組織(Food and Agriculture Organization, FAO)一直很是重視食物過敏及其防治研究。現代醫學研究認爲,食物過敏主要由食物中一些特別的蛋白質引發;這些引發過敏(變態反應)的蛋白質在免疫學中被統稱爲變應原(allergen)。目前,對食物過敏除了一些對症治療外,並無根治措施。所以,避免接觸或攝入過敏食物,從而預防食物過敏的發生就相當重要了。臨牀上,主要經過皮試和體外IgE檢測來診斷食物過敏。然而,臨牀診斷用變應原的種類有限,而食物及其蛋白質組成卻紛繁複雜。如何根據有限的實驗結果,科學嚴謹地推斷到更多未經實驗檢測的食品(包括轉基因食品)中去,從而預測、預警其引發食物過敏的風險,這已經成爲免疫信息學研究的一個前沿與熱點。

這主要體如今如下兩個方面:其一是1996年以來,大量變應原數據庫及IgE表位數據庫出現;其二是食物過敏預測方法日趨成熟。目前,食物過敏的免疫信息學預測已經發展出短肽匹配、序列比對、結構比較等3種不一樣方法[88]。短肽匹配方法比較用戶提交的蛋白質氨基酸序列與數據庫中全部已知過敏原有沒有8個連續相同氨基酸。若是有,則認爲該蛋白質可能引發食物過敏。在美國、歐盟、日本,短肽匹配方法已經普遍用於轉基因植物的安全評估中。序列比對方法採用BLAST或FASTA程序,把用戶提交的蛋白質氨基酸序列與數據庫中全部已知過敏原進行序列類似性的兩兩比對。2001年,FAO/WHO專家組推薦,兩比對序列80個氨基酸殘基的序列節段內,若是35%以上的氨基酸殘基相同則預測該蛋白質可能引發過敏反應。新近的研究顯示,兩條比對好的序列中若有70%以上的氨基酸殘基相同,則幾乎確定會有食物過敏的發生。例如,Sanchez-Monge等報道,對豌豆過敏的18位患者同時也都對小扁豆過敏[89]。豌豆中的過敏原主要是豌豆種子球蛋白(vicilin)和伴球蛋白(convicilin);而小扁豆的種子球蛋白與豌豆種子球蛋白有90%以上的氨基酸殘基相同,豌豆伴球蛋白與小扁豆伴球蛋白之間,相同氨基酸殘基超過70%。Beyer等報道[90],14位對榛子過敏的患者中,12位經檢測有能與11S榛子球蛋白結合的IgE。同時,這14位對榛子過敏的患者約有一半也對花生或核桃、巴西果、腰果、杏仁等過敏。這些堅果的11S球蛋白序列有45%~55%的氨基酸殘基與榛子相同。本領域最新的研究思路是經過比較結構進行食物過敏預測。因爲食物過敏主要由IgE介導,而大多數IgE識別的是變應原上的空間構象性表位;同時,大多數重要的變應原均可歸結到少數幾個結構家族,提示只要與已知變應原具備類似空間結構,即便氨基酸序列類似性程度低,也可能造成類似的空間構象性表位,並所以可能引起交叉的過敏反應。2005年,在西班牙召開了一場關於過敏預測方法的專題國際學術討論會。與會專家一致認爲, FAO/WHO專家組2001年推薦的雙測試中,6連續氨基酸短肽匹配方法假陽性率高,不主張繼續採用。對序列比對方法中的同率閾值,與會專家存在分歧,主流意見認爲,FAO/WHO專家組2001年推薦的35%的閾值較爲保守,但仍可在應用中繼續檢驗。此外,與會專家還一致看好結構比較方法,但因爲目前結構數據仍然缺少,同時尚未與序列比對相似的統一清晰的結構類似性指標,結構比較方法仍有待進一步研究。

藥物過敏是另外一種最爲常見的變態反應。最近,藥物過敏有突破性發現[91]。至少有部分藥物,如阿巴卡韋、卡馬西平等致使嚴重甚至是致命的IV變態反應,其機制徹底不一樣於傳統觀點。現已肯定,阿巴卡韋與卡馬西平能分別結合到HLA-B*57:0一、HLA-B*15:02分子的抗原結合槽,從而使相應分子遞呈抗原肽的特性發生改變,就彷彿用藥後機體有了一個新的HLA分子,從而致使具備該HLA等位基因的患者發生相似器官移植不匹配的後果。從此,免疫信息學在預測藥物過敏方面一定大有所爲。免疫信息學還能用到什麼地方?將來老是超乎想象。

腳註

* 諾華基金會是一個國際性的科學和教學慈善機構,它旨在促進生物學、醫學和化學研究方面的合做。John Wiley從1986年起就是諾華基金會的出版商,出版了獨一無二的、受到業界高度尊重的諾華系列叢書。這些書籍包括諾華基金研討會的論文集,而且還彙編了主要科學家和學者演講後普遍的鼓舞人心的討論和辯論。這些珍貴的資源涵蓋了20世紀後期全部關鍵的生物學發展,而且由國際知名的專家做爲撰稿人,其中更包括不少諾貝爾獎得到者。生動的辯論加上撰稿人的國際地位,爲諾華基金研討會系列叢書贏得了在科學文獻方面獨一無二的尊貴地位。

 

1971年Anthony Nolan出生並發現患有Wiskott-Aldrich綜合徵,只能經過骨髓移植治療,但當時沒有尋找除至親以外的供者系統。1973年,世界上第一例無親緣關係的配型與骨髓移植成功。居住在澳洲的安東尼媽媽雪莉.諾南(Shirley Nolan)看到了但願,不遠千里回到英國,呼籲國人踊躍驗血,並於1975年催生了Anthony Nolan基金會,創建了世界上第一個骨髓資料庫。惋惜,安東尼.諾南沒有等到合適的供者,於1979年去世。1993年安東尼.諾南研究所建成;迄今已有職員171位,登記的供者已超過40萬份。

參考文獻

  1. Orosz CG: An introduction to immuno-ecology and immuno-informatics. In: Design Principles for the Immune System and Other Distributed Autonomous Systems. Edited by Segel LA, Cohen IR: Oxford University Press; 2001: 125–149.

  2. Orosz CG: The case for immuno-informatics. Graft 2002, 5(8):462-465.

  3. Segel LA: Controlling the immune system: Diffuse feedback via a diffuse informational network. In: Complexity in biological information processing: Novartis Foundation Symposium 239. Edited by Bock GR, Goode JA: John Wiley & Sons; 2001: 31–44.

  4. Petrovsky N, Schonbach C, Brusic V: Bioinformatic strategies for better understanding of immune function. In Silico Biol 2003, 3(4):411-416.

  5. Rammensee HG: Immunoinformatics: bioinformatic strategies for better understanding of immune function. Introduction. Novartis Found Symp 2003, 254:1-2.

  6. Hart E, Timmis J: Application areas of AIS: The past, the present and the future. Applied Soft Computing 2008, 8(1):191-201.

  7. Timmis J: Artificial immune systems-today and tomorrow. Natural Computing 2007, 6(1):1-18.

  8. Flower DR, McSparron H, Blythe MJ, Zygouri C, Taylor D, Guan P, Wan S, Coveney PV, Walshe V, Borrow P et al: Computational vaccinology: quantitative approaches. Novartis Found Symp 2003, 254:102-120; discussion 120-105, 216-122, 250-102.

  9. Pinheiro CS, Martins VP, Assis NR, Figueiredo BC, Morais SB, Azevedo V, Oliveira SC: Computational vaccinology: an important strategy to discover new potential S. mansoni vaccine candidates. J Biomed Biotechnol 2011, 2011:503068.

  10. Rappuoli R, Covacci A: Reverse vaccinology and genomics. Science 2003, 302(5645):602.

  11. Jones D: Reverse vaccinology on the cusp. Nat Rev Drug Discov 2012, 11(3):175-176.

  12. Hagmann M: Computers aid vaccine design. Science 2000, 290(5489):80-82.

  13. Kuroda D, Shirai H, Jacobson MP, Nakamura H: Computer-aided antibody design. Protein Eng Des Sel 2012:in press.

  14. Tomar N, De RK: Immunoinformatics: an integrated scenario. Immunology 2010, 131(2):153-168.

  15. Benson DA, Karsch-Mizrachi I, Clark K, Lipman DJ, Ostell J, Sayers EW: GenBank. Nucleic Acids Res 2012, 40(Database issue):D48-53.

  16. UniProtConsortium: Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Res 2011, 39(Database issue):D214-219.

  17. Madej T, Addess KJ, Fong JH, Geer LY, Geer RC, Lanczycki CJ, Liu C, Lu S, Marchler-Bauer A, Panchenko AR et al: MMDB: 3D structures and macromolecular interactions. Nucleic Acids Res 2012, 40(Database issue):D461-464.

  18. Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M: KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 2012, 40(Database issue):D109-114.

  19. Lefranc MP, Giudicelli V, Ginestoux C, Jabado-Michaloud J, Folch G, Bellahcene F, Wu Y, Gemrot E, Brochet X, Lane J et al: IMGT, the international ImMunoGeneTics information system. Nucleic Acids Res 2009, 37(Database issue):D1006-1012.

  20. Salimi N, Fleri W, Peters B, Sette A: The Immune Epitope Database: A Historical Retrospective of the First Decade. Immunology 2012:in press.

  21. Kim Y, Ponomarenko J, Zhu Z, Tamang D, Wang P, Greenbaum J, Lundegaard C, Sette A, Lund O, Bourne PE et al: Immune epitope database analysis resource. Nucleic Acids Res 2012, 40(Web Server issue):W525-530.

  22. Robinson J, Mistry K, McWilliam H, Lopez R, Marsh SG: IPD--the Immuno Polymorphism Database. Nucleic Acids Res 2010, 38(Database issue):D863-869.

  23. Johnson G, Wu TT: Kabat Database and its applications: future directions. Nucleic Acids Res 2001, 29(1):205-206.

  24. Rammensee H, Bachmann J, Emmerich NP, Bachor OA, Stevanovic S: SYFPEITHI: database for MHC ligands and peptide motifs. Immunogenetics 1999, 50(3-4):213-219.

  25. Singh MK, Srivastava S, Raghava GP, Varshney GC: HaptenDB: a comprehensive database of haptens, carrier proteins and anti-hapten antibodies. Bioinformatics 2006, 22(2):253-255.

  26. Sayers S, Ulysse G, Xiang Z, He Y: Vaxjo: a web-based vaccine adjuvant database and its application for analysis of vaccine adjuvants and their uses in vaccine development. J Biomed Biotechnol 2012, 2012:831486.

  27. Saha S, Bhasin M, Raghava GP: Bcipep: a database of B-cell epitopes. BMC Genomics 2005, 6:79.

  28. Huang J, Honda W: CED: a conformational epitope database. BMC Immunol 2006, 7:7.

  29. Yang B, Sayers S, Xiang Z, He Y: Protegen: a web-based protective antigen database and analysis system. Nucleic Acids Res 2011, 39(Database issue):D1073-1078.

  30. Jongeneel V: Towards a cancer immunome database. Cancer Immun 2001, 1:3.

  31. Zhang ZH, Tan SC, Koh JL, Falus A, Brusic V: ALLERDB database and integrated bioinformatic tools for assessment of allergenicity and allergic cross-reactivity. Cell Immunol 2006, 244(2):90-96.

  32. Mills EN, Valovirta E, Madsen C, Taylor SL, Vieths S, Anklam E, Baumgartner S, Koch P, Crevel RW, Frewer L: Information provision for allergic consumers--where are we going with food allergen labelling? Allergy 2004, 59(12):1262-1268.

  33. Mills EN, Jenkins JA, Sancho AI, Miles S, Madsen C, Valovirta E, Frewer L: Food allergy information resources for consumers, industry and regulators. Arb Paul Ehrlich Inst Bundesamt Sera Impfstoffe Frankf A M 2006(95):17-25; discussion 25-17.

  34. Ivanciuc O, Schein CH, Braun W: SDAP: database and computational tools for allergenic proteins. Nucleic Acids Res 2003, 31(1):359-362.

  35. Allcorn LC, Martin AC: SACS--self-maintaining database of antibody crystal structure information. Bioinformatics 2002, 18(1):175-181.

  36. Huang J, Kawashima S, Kanehisa M: New amino acid indices based on residue network topology. Genome Inform 2007, 18:152-161.

  37. Huang J, Honda W, Kanehisa M: Predicting B cell epitope residues with network topology based amino acid indices. Genome Inform 2007, 19:40-49.

  38. Larsen JE, Lund O, Nielsen M: Improved method for predicting linear B-cell epitopes. Immunome Res 2006, 2:2.

  39. Zhang W, Xiong Y, Zhao M, Zou H, Ye X, Liu J: Prediction of conformational B-cell epitopes from 3D structures by random forests with a distance-based feature. BMC Bioinformatics 2011, 12:341.

  40. Kulkarni-Kale U, Bhosle S, Kolaskar AS: CEP: a conformational epitope prediction server. Nucleic Acids Res 2005, 33(Web Server issue):W168-171.

  41. Haste Andersen P, Nielsen M, Lund O: Prediction of residues in discontinuous B-cell epitopes using protein 3D structures. Protein Sci 2006, 15(11):2558-2567.

  42. Sun J, Wu D, Xu T, Wang X, Xu X, Tao L, Li YX, Cao ZW: SEPPA: a computational server for spatial epitope prediction of protein antigens. Nucleic Acids Res 2009, 37(Web Server issue):W612-616.

  43. Hu X, Zhou W, Udaka K, Mamitsuka H, Zhu S: MetaMHC: a meta approach to predict peptides binding to MHC molecules. Nucleic Acids Res 2010, 38(Web Server issue):W474-479.

  44. Zhang GL, Ansari HR, Bradley P, Cawley GC, Hertz T, Hu X, Jojic N, Kim Y, Kohlbacher O, Lund O et al: Machine learning competition in immunology - Prediction of HLA class I binding peptides. J Immunol Methods 2011, 374(1-2):1-4.

  45. Smith GP: Filamentous fusion phage: novel expression vectors that display cloned antigens on the virion surface. Science 1985, 228(4705):1315-1317.

  46. Devlin JJ, Panganiban LC, Devlin PE: Random peptide libraries: a source of specific protein binding molecules. Science 1990, 249(4967):404-406.

  47. Smith GP, Petrenko VA: Phage Display. Chem Rev 1997, 97(2):391-410.

  48. Huang J, Gutteridge A, Honda W, Kanehisa M: MIMOX: a web tool for phage display based epitope mapping. BMC Bioinformatics 2006, 7:451.

  49. Huang J, Ru B, Dai P: Prediction of protein interaction sites using mimotope analysis. In: Protein-Protein Interactions - Computational and Experimental Tools. Edited by Cai W: InTech; 2012: 189-206.

  50. Tong AH, Drees B, Nardelli G, Bader GD, Brannetti B, Castagnoli L, Evangelista M, Ferracuti S, Nelson B, Paoluzi S et al: A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules. Science 2002, 295(5553):321-324.

  51. Thom G, Cockroft AC, Buchanan AG, Candotti CJ, Cohen ES, Lowne D, Monk P, Shorrock-Hart CP, Jermutus L, Minter RR: Probing a protein-protein interaction by in vitro evolution. Proc Natl Acad Sci U S A 2006, 103(20):7619-7624.

  52. Pasqualini R, Ruoslahti E: Organ targeting in vivo using phage display peptide libraries. Nature 1996, 380(6572):364-366.

  53. Hsiung PL, Hardy J, Friedland S, Soetikno R, Du CB, Wu AP, Sahbaie P, Crawford JM, Lowe AW, Contag CH et al: Detection of colonic dysplasia in vivo using a targeted heptapeptide and confocal microendoscopy. Nat Med 2008, 14(4):454-458.

  54. Macdougall IC, Rossert J, Casadevall N, Stead RB, Duliege AM, Froissart M, Eckardt KU: A peptide-based erythropoietin-receptor agonist for pure red-cell aplasia. N Engl J Med 2009, 361(19):1848-1855.

  55. Knittelfelder R, Riemer AB, Jensen-Jarolim E: Mimotope vaccination--from allergy to cancer. Expert Opin Biol Ther 2009, 9(4):493-506.

  56. Lee YJ, Yi H, Kim WJ, Kang K, Yun DS, Strano MS, Ceder G, Belcher AM: Fabricating genetically engineered high-power lithium-ion batteries using multiple virus genes. Science 2009, 324(5930):1051-1055.

  57. Nam YS, Magyar AP, Lee D, Kim JW, Yun DS, Park H, Pollom TS, Jr., Weitz DA, Belcher AM: Biologically templated photocatalytic nanostructures for sustained light-driven water oxidation. Nat Nanotechnol 2010, 5(5):340-344.

  58. Smothers JF, Henikoff S, Carter P: Affinity selection from biological libraries. Science 2002, 298(5593):621-622.

  59. Menendez A, Scott JK: The nature of target-unrelated peptides recovered in the screening of phage-displayed random peptide libraries with antibodies. Anal Biochem 2005, 336(2):145-157.

  60. Vodnik M, Zager U, Strukelj B, Lunder M: Phage display: selecting straws instead of a needle from a haystack. Molecules 2011, 16(1):790-817.

  61. Thomas WD, Golomb M, Smith GP: Corruption of phage display libraries by target-unrelated clones: diagnosis and countermeasures. Anal Biochem 2010, 407(2):237-240.

  62. Brammer LA, Bolduc B, Kass JL, Felice KM, Noren CJ, Hall MF: A target-unrelated peptide in an M13 phage display library traced to an advantageous mutation in the gene II ribosome-binding site. Anal Biochem 2008, 373(1):88-98.

  63. Derda R, Tang SK, Li SC, Ng S, Matochko W, Jafari MR: Diversity of Phage-Displayed Libraries of Peptides during Panning and Amplification. Molecules 2011, 16(2):1776-1803.

  64. Ru B, Huang J, Dai P, Li S, Xia Z, Ding H, Lin H, Guo F, Wang X: MimoDB: a New Repository for Mimotope Data Derived from Phage Display Technology. Molecules 2010, 15(11):8279-8288.

  65. Huang J, Ru B, Zhu P, Nie F, Yang J, Wang X, Dai P, Lin H, Guo FB, Rao N: MimoDB 2.0: a mimotope database and beyond. Nucleic Acids Res 2012, 40(Database issue):D271-277.

  66. Huang J, Ru B, Dai P: Bioinformatics resources and tools for phage display. Molecules 2011, 16(1):694-709.

  67. Mandava S, Makowski L, Devarapalli S, Uzubell J, Rodi DJ: RELIC--a bioinformatics server for combinatorial peptide analysis and identification of protein-ligand interaction sites. Proteomics 2004, 4(5):1439-1460.

  68. Huang J, Ru B, Li S, Lin H, Guo FB: SAROTUP: scanner and reporter of target-unrelated peptides. J Biomed Biotechnol 2010, 2010:101932.

  69. Abhinandan KR, Martin AC: Analysis and improvements to Kabat and structurally correct numbering of antibody variable domains. Mol Immunol 2008, 45(14):3832-3839.

  70. Deret S, Maissiat C, Aucouturier P, Chomilier J: SUBIM: a program for analysing the Kabat database and determining the variability subgroup of a new immunoglobulin sequence. Comput Appl Biosci 1995, 11(4):435-439.

  71. Martin AC: Accessing the Kabat antibody sequence database by computer. Proteins 1996, 25(1):130-133.

  72. Abhinandan KR, Martin AC: Analyzing the "degree of humanness" of antibody sequences. J Mol Biol 2007, 369(3):852-862.

  73. Abhinandan KR, Martin AC: Analysis and prediction of VH/VL packing in antibodies. Protein Eng Des Sel 2010, 23(9):689-697.

  74. Whitelegg NR, Rees AR: WAM: an improved algorithm for modelling antibodies on the WEB. Protein Eng 2000, 13(12):819-824.

  75. Arnold K, Bordoli L, Kopp J, Schwede T: The SWISS-MODEL workspace: a web-based environment for protein structure homology modelling. Bioinformatics 2006, 22(2):195-201.

  76. Marcatili P, Rosi A, Tramontano A: PIGS: automatic prediction of antibody structures. Bioinformatics 2008, 24(17):1953-1954.

  77. Sircar A, Kim ET, Gray JJ: RosettaAntibody: antibody variable region homology modeling server. Nucleic Acids Res 2009, 37(Web Server issue):W474-479.

  78. Tseng YY, Dupree C, Chen ZJ, Li WH: SplitPocket: identification of protein functional surfaces and characterization of their spatial patterns. Nucleic Acids Res 2009, 37(Web Server issue):W384-389.

  79. Liang J, Edelsbrunner H, Woodward C: Anatomy of protein pockets and cavities: measurement of binding site geometry and implications for ligand design. Protein Sci 1998, 7(9):1884-1897.

  80. Xiang Z, Todd T, Ku KP, Kovacic BL, Larson CB, Chen F, Hodges AP, Tian Y, Olenzek EA, Zhao B et al: VIOLIN: vaccine investigation and online information network. Nucleic Acids Res 2008, 36(Database issue):D923-928.

  81. He Y, Xiang Z, Mobley HL: Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development. J Biomed Biotechnol 2010, 2010:297505.

  82. Tettelin H, Saunders NJ, Heidelberg J, Jeffries AC, Nelson KE, Eisen JA, Ketchum KA, Hood DW, Peden JF, Dodson RJ et al: Complete genome sequence of Neisseria meningitidis serogroup B strain MC58. Science 2000, 287(5459):1809-1815.

  83. Pizza M, Scarlato V, Masignani V, Giuliani MM, Arico B, Comanducci M, Jennings GT, Baldi L, Bartolini E, Capecchi B et al: Identification of vaccine candidates against serogroup B meningococcus by whole-genome sequencing. Science 2000, 287(5459):1816-1820.

  84. Black S, Pizza M, Nissum M, Rappuoli R: Toward a meningitis-free world. Sci Transl Med 2012, 4(123):123ps125.

  85. Duquesnoy RJ: Antibody-reactive epitope determination with HLAMatchmaker and its clinical applications. Tissue Antigens 2011, 77(6):525-534.

  86. Filho HL, da Mata Sousa LC, von Glehn Cde Q, da Silva AS, dos Santos Neto Pde A, do Nascimento F, de Castro AF, do Nascimento LM, Kneib C, Bianchi Cazarote H et al: EpHLA software: a timesaving and accurate tool for improving identification of acceptable mismatches for clinical purposes. Transpl Immunol 2012, 26(4):230-234.

  87. Gibson J: Bioinformatics of protein allergenicity. Mol Nutr Food Res 2006, 50(7):591.

  88. Goodman RE: Practical and predictive bioinformatics methods for the identification of potentially cross-reactive protein matches. Mol Nutr Food Res 2006, 50(7):655-660.

  89. Sanchez-Monge R, Lopez-Torrejon G, Pascual CY, Varela J, Martin-Esteban M, Salcedo G: Vicilin and convicilin are potential major allergens from pea. Clin Exp Allergy 2004, 34(11):1747-1753.

  90. Beyer K, Grishina G, Bardina L, Grishin A, Sampson HA: Identification of an 11S globulin as a major hazelnut food allergen in hazelnut-induced systemic reactions. J Allergy Clin Immunol 2002, 110(3):517-523.

  91. Illing PT, Vivian JP, Dudek NL, Kostenko L, Chen Z, Bharadwaj M, Miles JJ, Kjer-Nielsen L, Gras S, Williamson NA et al: Immune self-reactivity triggered by drug-modified HLA-peptide repertoire. Nature 2012, 486(7404):554-558.

相關文章
相關標籤/搜索