數據集大全：25個深度學習的開放數據集

時間 2020-01-29

標籤數據大全深度學習開放简体版

原文原文鏈接

摘要：還在發愁找不到數據集訓練你的模型？快來收藏一下史上最全的深度學習數據集彙總吧，有它在，一切都ok~git

介紹

深度學習的關鍵是訓練。不管是從圖像處理到語音識別，每一個問題都有其獨特的細微差異和方法。算法

可是，你能夠從哪裏得到這些數據？如今你看到的不少研究論文都使用專有數據集，而這些數據集一般不會向公衆發佈。若是你想學習並應用你新掌握的技能，數據就成爲一個問題。數據庫

在本文中，咱們列出了一些高質量的數據集，每一個深度學習愛好者均可以使用並改善改進他們模型的性能。擁有這些數據集將使你成爲一名更好的數據科學家，而且你將從中得到無可估量的價值。咱們還收錄了具備最新技術（SOTA）結果的論文，供你瀏覽並改進你的模型。網絡

如何使用這些數據集？
首先要作的事——下載這些數據集，這些數據集的規模很大！因此請確保你有一個快速的互聯網鏈接。架構

數據集分爲三類——圖像處理、天然語言處理和音頻/語音處理。工具

讓咱們開始咱們的數據集之旅吧！性能

圖像數據集

1.MNIST學習

clipboard.png測試

MNIST是最受歡迎的深度學習數據集之一，這是一個手寫數字數據集，包含一組60,000個示例的訓練集和一個包含10,000個示例的測試集。這是一個很好的數據庫，用於在實際數據中嘗試學習技術和深度識別模式，同時能夠在數據預處理中花費最少的時間和精力。阿里雲

大小： 50 MB

記錄數量： 70,000張圖片被分紅了10個組。

SOTA： Capsules之間的動態路由。

2.MS-COCO

clipboard.png

COCO是一個大型的、豐富的物體檢測，分割和字幕數據集。它有幾個特色：

對象分割；
在上下文中可識別；
超像素分割；
330K圖像（> 200K標記）；
150萬個對象實例；
80個對象類別；
91個類別；
每張圖片5個字幕；
有關鍵點的250,000人；

大小：25 GB（壓縮）

記錄數量： 330K圖像、80個對象類別、每幅圖像有5個標籤、25萬個關鍵點。

SOTA：Mask R-CNN

3.ImageNet

clipboard.png

ImageNet是根據WordNet層次結構組織的圖像數據集。WordNet包含大約100,000個單詞，ImageNet平均提供了大約1000個圖像來講明每一個單詞。

大小：150GB

記錄數量：總圖像是大約是1,500,000，每一個都有多個邊界框和相應的類標籤。

SOTA：深度神經網絡的聚合殘差變換。

4.Open Images數據集

clipboard.png

該數據集是一個包含近900萬個圖像URL的數據集，這些圖像跨越了數千個類的圖像級標籤邊框而且進行了註釋。該數據集包含9,011,219張圖像的訓練集，41,260張圖像的驗證集以及125,436張圖像的測試集。

大小：500 GB（壓縮）

記錄數量：9,011,219張超過5k標籤的圖像

SOTA：Resnet 101圖像分類模型（在V2數據上訓練）：模型檢查點，檢查點自述文件，推理代碼。

5.VisualQA

clipboard.png

VQA是一個包含相關圖像的開放式問題的數據集，這些問題須要理解視野和語言。這個數據集的一些有趣的特色是：

265,016張圖片（COCO和抽象場景）；
每張圖片至少有3個問題（平均5.4個問題）；
每一個問題有10個基本事實答案；
每一個問題有3個彷佛合理（但可能不正確）的答案；
自動評估指標。
大小：25 GB（壓縮）

記錄數量：265,016張圖片，每張圖片至少3個問題，每一個問題10個基本事實答案。

SOTA：視覺問答的技巧和訣竅：從2017年的挑戰中學習

6.街景房屋號碼（SVHN）

clipboard.png

這是用於開發對象檢測算法的真實世界的圖像數據集，它須要最少的數據預處理。它與本列表中提到的MNIST數據集相似，但具備更多標籤數據（超過600,000個圖像），這些數據是從谷歌街景中查看的房屋號碼中收集的。

大小：2.5 GB

記錄數量：6,30,420張圖片被分佈在10個類中。

SOTA：虛擬對抗訓練的分佈平滑

7.CIFAR-10

clipboard.png

該數據集是圖像分類的另外一個數據集，它由10個類的60,000個圖像組成（每一個類在上面的圖像中表示爲一行）。總共有50,000個訓練圖像和10,000個測試圖像。數據集分爲6個部分：5個訓練批次和1個測試批次，每批有10,000個圖像。

大小：170 MB

記錄數量：60,000張圖片被分爲10個類。

SOTA：ShakeDrop正則化

8.Fashion--MNIST

clipboard.png

Fashion-MNIST包含60,000個訓練圖像和10,000個測試圖像，它是一個相似MNIST的時尚產品數據庫。開發人員認爲MNIST已被過分使用，所以他們將其做爲該數據集的直接替代品。每張圖片都以灰度顯示，並與10個類別的標籤相關聯。

大小：30 MB。

記錄數量：70,000張圖片被分爲10個類。

SOTA：隨機擦除數據加強

天然語言處理

9.IMDB評論
這是電影愛好者的夢幻數據集，它意味着二元情感分類，並具備比此領域之前的任何數據集更多的數據。除了訓練和測試評估示例以外，還有更多未標記的數據供你使用。原始文本和預處理的單詞格式包也包括在內。

大小：80 MB。

記錄數量： 25,000個電影評論訓練，25,000個測試

SOTA：學習結構化文本表示

10.二十個新聞組（Twenty Newsgroups）
顧名思義，該數據集包含有關新聞組的信息。爲了管理這個數據集，從20個不一樣的新聞組中獲取了1000篇Usenet文章。這些文章具備典型特徵，如主題行，簽名和引號。

大小：20 MB

記錄數量：來自20個新聞組的20,000條消息。

SOTA：用於文本分類的很是深的卷積網絡，

11.Sentiment140
Sentiment140是一個可用於情感分析的數據集。它是一個流行的數據集，它能讓你的NLP旅程更加完美。情緒已經從數據中預先刪除，最終的數據集具備如下6個特徵：

推文的極性（polarity of the tweet）。
推文的ID。
推文的日期。
查詢。
推文的文本。
大小：80 MB（壓縮）。

記錄數量：160,000條推文。

SOTA：評估最早進的情感數據集的最新情緒模型

12.WordNet
在上面的ImageNet數據集中提到，WordNet是一個包含英文synsets的大型數據庫。Synsets是同義詞組，每一個描述不一樣的概念。WordNet的結構使其成爲NLP很是有用的工具。

大小：10 MB

記錄數量：經過少許「概念關係」將117,000個同義詞集與其餘同義詞集相關聯。

SOTA：Wordnet：現狀和前景

13.Yelp評論
這是Yelp爲了學習目的而發佈的一個開放數據集。它由數百萬用戶評論，商業屬性和來自多個大都市地區的超過20萬張照片組成。這是一個很是經常使用的全球NLP挑戰數據集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（所有壓縮）

記錄數：5,200,000條評論，174,000條商業屬性，20萬張照片。

SOTA：細心卷積(Attentive Convolution)

14.維基百科語料庫
該數據集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。這個強大的NLP數據集你能夠經過單詞，短語或段落自己的一部分進行搜索。

大小：20 MB。

記錄數：4,400,000篇文章，19億字。

SOTA：打破Softmax Bottelneck：高級RNN語言模型

15.博客做者身份語料庫
此數據集包含從數千名博主收集的博客帖子，而且已從blogger.com收集。每一個博客都做爲一個單獨的文件提供，每一個博客至少包含200次經常使用英語單詞。

大小：300 MB

記錄數：681,288個帖子，超過1.4億字。

SOTA：用於大規模做者歸屬的字符級和多通道卷積神經網絡

16.歐洲語言的機器翻譯數據集
該數據集包含四種歐洲語言的訓練數據，它存在的任務是改進當前的翻譯方法。你訓練如下任何語言對：

· 法語——英語；

· 西班牙語——英語；

· 德語——英語；

· 捷克語——英語。

大小：15 GB

記錄數量：約30,000,000個句子及其翻譯。

SOTA：Attention就是你所須要的

音頻/語音數據集

17.免費口語數字數據集
此列表中的另外一項是由MNIST數據集啓發！這是爲了解決識別音頻樣本中的口頭數字的任務而建立的。這是一個開放的數據集，因此但願隨着人們繼續貢獻更多樣本，它會不斷增加。目前，它包含如下特色：

3個揚聲器；
1500個錄音（每一個揚聲器每一個數字50個）；
英語發音；
大小：10 MB。

記錄數量：1500個音頻樣本。

SOTA：使用採樣級CNN架構的基於原始波形的音頻分類
18.免費音樂檔案（FMA）
FMA是音樂分析的數據集，該數據集由full-length和HQ音頻、預先計算的特徵以及音軌和用戶級元數據組成。它是一個開放數據集，用於評估MIR中的幾個任務。如下是數據集連同其包含的csv文件列表：

tracks.csv：106,574首曲目的每首曲目元數據，如ID，標題，藝術家，流派，標籤和播放次數。
genres.csv：163種風格的ID與他們的名字和父母（用於推斷流派層次和頂級流派）。
features.csv：用librosa提取的共同特徵。
echonest.csv：由Echonest （如今的 Spotify）爲13,129首音軌的子集提供的音頻功能。
大小：1000 GB

記錄數量：約100,000 tracks

SOTA：學習從音頻中識別音樂風格

19.舞廳（Ballroom）
該數據集包含舞廳跳舞音頻文件，以真實音頻格式提供了許多舞蹈風格的一些特徵摘錄。如下是數據集的一些特徵：

· 實例總數：698；

· 持續時間：約30秒；

· 總持續時間：約20940秒；

大小： 14GB（壓縮）

記錄數量：約700個音頻樣本

SOTA：考慮到不一樣類型音樂風格的多模型方法來戰勝追蹤

20.百萬歌曲數據集
在百萬歌曲數據集是音頻功能和元數據的一百萬當代流行音樂曲目可自由可用的集合。其目的是：

· 鼓勵對擴大到商業規模的算法進行研究；

· 爲評估研究提供參考數據集；

· 做爲使用API建立大型數據集的捷徑（例如Echo Nest的）；

· 幫助新研究人員在MIR領域開始工做；

數據集的核心是一百萬首歌曲的特徵分析和元數據。該數據集不包含任何音頻，只包含派生的功能。示例音頻能夠經過使用哥倫比亞大學提供的代碼從7digital等服務中獲取。

大小： 280 GB

記錄數量：一百萬首歌曲！

SOTA：百萬歌曲數據集挑戰推薦系統的初步研究

21.LibriSpeech
該數據集是包含大約1000小時的英語語音的大型語料庫。這些數據來自LibriVox項目的有聲讀物。它已被分割並正確對齊，若是你正在尋找一個起點，請查看已準備好的聲學模型，這些模型在kaldi-asr.org和語言模型上進行了訓練，適合評估，網址爲：http://www.openslr.org/11/。

大小：60 GB

記錄數： 1000小時的演講。

SOTA：基於信件的語音識別與門控通訊

22.VoxCeleb
VoxCeleb是一個大型的說話人識別數據集。它包含約1,200名來自YouTube視頻的約10萬個話語，數據大部分是性別平衡的（男性佔55％）。名人跨越不一樣的口音，職業和年齡，開發和測試集之間沒有重疊。對於隔離和識別哪一個超級巨星來講，這是一個有趣的用例。

大小： 150 MB

記錄數： 1,251位名人的100,000條話語。

SOTA：VoxCeleb：一個大型說話人識別數據集