微軟內部研究數據集正式對外開放，覆蓋NLP、CV等9個領域

時間 2019-11-17

標籤微軟內部研究數據正式對外開放覆蓋 nlp 領域欄目 Microsoft 简体版

原文原文鏈接

策劃編輯 | Natalie

做者 | Vani Mandava

譯者 | 核子可樂

編輯 | Debra

AI 前線導讀：近日，微軟研究院開源了新的數據項目，致力於促進全球研究界的普遍合做。有專家對這次開放數據項目評價道「 這將成爲大數據社區的遊戲規則改變者。微軟研究開放數據這樣的項目可以減小數據共享的障礙，並經過雲計算的力量鼓勵可重複性。」微軟在官方博客中寫道：「微軟研究外聯小組一直在與外部研究團隊開展普遍合做，並在過去幾年當中積極推進雲研究基礎設施的採用工做。在這一過程當中，咱們體驗到 Jim Gray 提出的數據密集型科學第四種發展模式的廣泛性——目前，幾乎全部研究項目都包含數據元素。這一趨勢同時代表，除了計算機科學領域，其它跨學科與區域科學領域一樣對通過精心規劃以及有意義的數據集抱有旺盛需求。」這也是微軟開放此數據項目的初衷。

更多幹貨內容請關注微信公衆號「AI 前線」，（ID：ai-front）

今天，咱們很高興向你們介紹微軟研究開放數據項目——這套新的雲數據存儲庫致力於促進全球研究界的普遍合做。微軟研究開放數據將提供一套便捷的數據集雲託管平臺，其同時表明着微軟公司多年以來在一系列項目當中所使用的數據管理與研究成果。算法

爲什麼要開放？

咱們的目標是爲微軟研究人員及各合做方提供一套簡單的平臺，用以共享數據集以及相關研究技術與工具。微軟研究開放數據項目旨在簡化對這些數據集的訪問流程，促進各使用雲資源的研究人員之間的協做，同時儘量實現研究的可重複性。咱們將繼續塑造並發展這套存儲庫，並根據社區的反饋意見不斷添加新的功能。json

咱們意識到，研究人員目前正在使用數十套數據存儲庫，並迫切但願其容量可以與現有工做的需求相契合。微信

圖1 微軟研究開放數據項目中的數據集併發

「這將成爲大數據社區的遊戲規則改變者。微軟研究開放數據這樣的項目可以減小數據共享的障礙，並經過雲計算的力量鼓勵可重複性。」less

-Sam Madden，麻省理工學院教授工具

隨着數據總量以指數速度增加，人們廣泛認爲到 2025 年全球數據規模將超過 150 ZB。很明顯，面對如此龐大的數據體量，咱們應優先將處理資源引入數據，而非經過互聯網帶寬遷移海量數據。咱們相信，提供這樣一套將處理與數據加以結合的方案可以帶來巨大的現實意義。開發工具

特色：分類多、覆蓋範圍廣

微軟研究開放數據中的數據集按照其主要研究領域進行分類，具體如圖2所示。你能夠在數據集當中找到研究項目或者出版物的連接。你能夠瀏覽可用數據集並進行下載，也能夠經過自動化工做流程利用 Auzre 訂閱實現直接複製。該存儲庫儘量符合數據共享領域的最高執行標準，旨在確保數據集的可發現性、可訪問性、可互操做性以及可複用性 ; 且整套素材庫不包含任何我的身份信息。咱們將從用戶當中獲取反饋，從而推進該站點的進一步發展。測試

圖2 數據集分類大數據

精選數據集先睹爲快

微軟開放的數據集中包含不少有用的數據集，如下介紹若干精選數據集：ui

微軟機器閱讀理解（MS MARCO）

微軟機器閱讀理解（MS MARCO）是一個全新的閱讀理解和問題解答大型數據集。在 MS MARCO 中，全部問題都是從真正的匿名用戶查詢中抽樣的。從上下文語境中獲得的回答是使用最高級版本的 Bing 搜索引擎從真實的 Web 文檔中提取的。若是用戶可以總結答案，則查詢的答案由他們人工生成。

文件大小：469.03 MB

文件類型：json

許可證：微軟研究數據許可協議

上次修改時間：6/5/18

類別：社會科學、社交媒體等

詳細信息：

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

SigmaDolphin

用於創建一個自動解決用天然語言編寫的數學單詞問題的計算機系統。SigmaDolphin 是 2013 年初在微軟亞洲研究院啓動的一個項目，其主要目標是創建一個具備天然語言理解和推理能力的計算機智能系統。咱們專一於研發自主解決問題的應用，即自動解決用天然語言編寫的問題（特別是數學問題）。

文件大小：11.54 MB

文件類型：json，pdf，pkl，py，txt

許可證：微軟研究數據許可協議

上次修改時間：6/21/18

類別：數學、統計學、邏輯學等

詳細信息：

https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992

微軟研究社交媒體對話語料庫

此數據集是從 Twitter 日誌中提取的表明 4232 個三步會話片斷的 12,696 個 Tweet ID 集合。數據集中的每一行表示一個單獨的上下文-消息-響應三元關係，衆包註釋者爲上下文響應質量的評分平均爲 4 或更高。數據已被隨機分爲調優（開發）和測試集，分別包含 2118 和 2114 個三元關係。但這個在天然語言處理社區的數據集僅供學術研究之用。爲了訪問底層推文和相關元數據，你須要調用 Twitter API。

若是你在研究中使用相似材料，能夠引用如下文章：Alessandro Sordoni，Michel Galley，Michael Auli，Chris Brockett，Jiufeng Feng，Meg Mitchell，Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan，A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。

與此和相關項目的更多信息能夠在 http： //research.microsoft.com/en-us/projects/convo/ 上找到。

文件大小：245.46 KB

文件類型：txt

許可證：微軟研究數據

許可協議：微軟研究數據許可協議

上次修改時間：6/21/18

類別：社會科學，社交媒體等

詳細信息：

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

NewsQA

每秒鐘都會產生大量的書面文字，咱們如何確保咱們有最新的相關信息供使用呢？微軟研究蒙特利爾正在經過構建可以實時讀取和理解大量複雜文本的 AI 系統來解決這個問題。NewsQA 數據集旨在幫助研究團體構建可以回答須要人類理解和推理技能的問題的算法。

文件大小：18.23 MB

文件類型：csv，md，pdf

許可證：微軟研究數據

許可協議：微軟研究數據許可協議

上次修改時間：6/21/18

類別：計算機科學

詳細信息：

https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321

在 Bing 查詢中訓練雙字嵌入

這些數據僅可用於研究目的。DESM Word Embeddings 數據集包含一些可能被認爲具備冒犯性、不雅或其餘使人反感的詞語。 Microsoft 還沒有審查或修改數據集的內容。 Microsoft 此數據集僅爲了便利的目的，對經過該數據集產生的任何不適內容概不負責。使用數據集須要你自擔風險，保持判斷力。有問題請聯繫論文做者。

文件大小：10.38 GB

文件類型：txt

許可證：微軟研究數據

許可協議：微軟研究數據許可協議

上次修改時間：6/21/18

類別：計算機科學

詳細信息：

https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e

其餘的精選數據集還包括 Frames、Filling the Blanks for Mad Libs 等，這裏就不一一詳細介紹了。

如何獲取微軟開放數據集

微軟這次開放的數據項目其中不少都是微軟內部很先進技術會用到的數據集，數據分類多、覆蓋範圍廣、資源珍貴，且用且珍惜，傳送門先奉上：

https://msropendata.com/

除了提供數據資產下載選項以外，用戶還能夠將數據集直接複製至基於 Azure 的 Data Science 虛擬機當中，具體如圖 3 所示。

圖3 將數據由 microsoftopendata.com 複製至基於 Azure 的 Linux 虛擬機

Data Science 虛擬機預先安裝有各種廣受研究人員與從業者喜好的開發工具，如圖 4 所示。

圖4 Linux Data Science 虛擬機

「我常常收到進行研究數據共享的請求，而我過去已經進行的單獨分享也得到了不錯的效果。利用 Azure，咱們能夠在統一平臺上對數據集進行協調與編目，從而幫助內部與外部研究人員更輕鬆地實現訪問、鼓勵彼此協做。這同時也將爲微軟研究院提供便捷的雲共享數據訪問能力。」

-John Krumm，微軟研究院 AI 首席研究員

微軟研究開放數據項目是微軟研究院外聯數據科學計劃的成果之一。在這裏，咱們要感謝微軟公司內各團隊、微軟研究人員、行業合做夥伴以及學術顧問之間的能力配合。沒有他們的貢獻，這一項目將不可能順利完成。

原文連接：

https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/