全球最大 COVID-19 研究數據集正式開放,增強科技抗疫

圖片描述

近日,全球多家研究機構以及科技企業爲了更好的應對疫情,聯合發佈了一個 COVID-19 開放研究數據集(簡稱爲 CORD-19 ),該數據集中包含針對文本進行優化的文本處理工具包 SciSpacy、在科學文本上進行預訓練的 BERT 模型 SciBERT、開放研究語料庫和 API 等,並聚集了有關 SARS-CoV-2 病毒內容在內的近 29,000 篇文章。這次公開的數據集是機器可讀的,所以能夠輕鬆地進行解析,以用於機器學習目的。ios

該項目由艾倫 AI 研究所、Chan Zuckerberg Initiative(CZI)、喬治敦大學安全與新興技術中心(CSET)、微軟以及美國國立衛生研究院國家醫學圖書館(NLM)等機構組成。在新聞發佈會上,美國首席技術官 Michael Kratsios 稱新數據集爲「迄今爲止最普遍的機器可讀冠狀病毒文獻集」。算法


多年來,科學家一直在研究和發表有關各類冠狀病毒株的發現,包括 SARS、MERS 和最新的 COVID-19 等其餘變體。微軟首席科學官埃裏克·霍維茨(Eric Horvitz)說,利用人工智能工具尋找數千篇此類已發表文章的共性和差別,將有助於科學家發現他們可能錯過的事物。安全

Kaggle 的聯合創始人兼首席執行官 Anthony Goldbloom 表示:「人們很難手動瀏覽 2 萬多篇文章並綜合他們的發現。」 「最近的技術進步在這裏可能會有所幫助。咱們將這些文章的機器可讀版本顯示在咱們超過 400 萬數據科學家的社區中。咱們但願,人工智能能夠用來幫助找到有關 COVID-19 的一系列關鍵問題的答案。」機器學習

Chan Zuckerberg Initiative 科學部負責人 Cori Bargmann 表示:「在科學界和醫學界之間共享重要信息,對於提升咱們應對冠狀病毒大流行的能力相當重要,新的 COVID-19 開放研究數據集將幫助全球研究人員更快地訪問重要信息。」工具

據悉,科學期刊和文學的出版商已經贊成將其完整的文章提供給研究人員,以便機器學習算法能夠從中尋找關鍵的看法。他們說,隨着世界各地科學家繼續發表新的研究成果,期刊出版商已經贊成在印刷版本以前以電子形式提供這些文章。學習

COVID-19 開放研究數據集地址:https://pages.semanticscholar...優化

clipboard.png

相關文章
相關標籤/搜索