摘要:近期,中科院上海藥物所、上海科技大學聯合華爲雲醫療智能體團隊,在 Science China Life Sciences 發表題爲「Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches」的文章。html
本文分享自華爲雲社區《中科院上海藥物所/上海科技大學、華爲雲聯合團隊發佈個性化聯邦學習算法框架,賦能AI藥物研發》,做者: 華爲雲頭條 。文章來源:中國科學雜誌社算法
藥物研發是一個漫長的過程,傳統的藥物研發須要投入大量的研發人員,而且花費十到十五年,數十億美圓的研發經費才能使一個藥物走向上市。近些年來,隨着 AI、大數據和雲計算等技術的發展,愈來愈多的製藥公司和科技巨頭把目光投到這一領域。然而 AI 藥物研發面臨着一系列困難和挑戰,AI 模型須要大量的數據進行建模,而藥物研發數據的高壁壘、高成本、高機密性影響到了製藥公司數據貢獻的積極性。同時,數據孤島現象廣泛存在,不少企業內部的數據都是量少並且高度有偏的,這給高質量的 AI 藥物研發模型帶來很大的挑戰。近年來新興的聯邦學習能夠很好的解決這個問題。聯邦學習本質上是一種分佈式機器學習技術,其目標是在保證數據隱私安全合規的基礎上,實現共同建模。在聯邦學習框架下,多家藥企之間無需共享數據,僅經過共享模型權重,來實現藥企之間協同訓練,在保證數據安全的同時彼此加強 AI 模型的效果。安全
近期,中科院上海藥物所、上海科技大學聯合華爲雲醫療智能體團隊,在 Science China Life Sciences 發表題爲「Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches」的文章。聯合團隊使用三個任務來模擬跨數據孤島的聯合學習過程:基於化學結構進行藥物溶解度、激酶抑制活性和 hERG 心臟毒性的預測。這些數據涵蓋了不一樣的藥物化學空間、實驗測量方法、實驗條件和數據大小,表明真實世界中不一樣製藥公司的數據分佈的差別。藉此,來研究聯邦學習對打破數據孤島的意義,並從分析結果中發現,聯邦學習的效果均優於單獨數據來源的模型訓練。markdown
接着,爲進一步提高模型效果,聯合團隊引入了殘差全鏈接網絡(RFCN),經過利用 AI 自動建模工具 AutoGenome1,對三個任務從新訓練以得到更精確的模型骨架;另外,在聯邦模型參數整合策略中聯合團隊引入了個性化聯邦學習(FedAMP)2,爲聯邦計算參與者訓練個性化模型,而且經過注意力消息傳遞機制增強具備類似數據分佈的參與者之間的協同,使得數據貢獻越多、質量越好的參與方獲益也越大;在激酶抑制活性預測的性能對比咱們能夠看到,RFCN 和 FedAMP 的引入,在藥物溶解度、激酶抑制活性和 hERG 心臟毒性預測這三個 AI 任務上,均優於傳統 MLP 和 FedAvg 方法。網絡
近日,上海藥物所/上海科技大學和華爲雲醫療智能體,聯合發佈基於華爲雲 ModelArts 平臺的藥物聯邦學習服務,來幫助藥企和研究機構更加方便的使用藥物聯邦學習,經過簡單的四步操做,參與聯邦學習的用戶就能夠便捷的實現聯邦訓練:第一步:盟主建立聯盟,定義聯邦任務,如藥物結構預測水溶解度;第二步:盟主邀請參與者加入聯邦,參與者贊成加入;第三步:聯邦成員部署代理,配置聯邦運行環境;第四步:盟主啓動聯邦任務,開始聯邦做業訓練。框架
華爲雲醫療智能體 EIHealth 基於華爲雲 AI 昇騰集羣服務、華爲雲一站式 AI 開發平臺 ModelArts 的強大 AI 能力,集成了醫藥領域衆多算法、工具、AI 模型和自動化流水線,目標是打造一個全棧、開放、專業的醫療行業企業級 AI 研發平臺。更多信息請訪問:www.huaweicloud.com/product/eih…機器學習
參考文獻分佈式
1. Liu, D. et al. AutoGenome: An AutoML Tool for Genomic Research. bioRxiv 842526 (2019) doi:10.1101/842526.2. Huang, Y. et al. Personalized Cross-Silo Federated Learning on Non-IID Data. arXiv:2007.03797 [cs, stat] (2021).工具