原文連接
本文修正部分錯誤。html
如下是精心收集的一些很是好的開放數據集,也是作 AI 研究不容錯過的數據集。git
【經典】這些是在 AI 領域中很是著名、衆所周知的數據集。不多有研究者或工程師沒有據說過它們。github
【有用】這些是更加接近現實世界的、精心設計的數據集。並且,這些數據集一般在產品和研發兩方面都有用。算法
【學術】這些是在機器學習和 AI 的學術研究中一般做爲基準或基線使用的數據集。不管好壞,研究人員都使用這些數據集來驗證算法。網絡
【陳舊】這些數據集,不管是否實用,已經有至關長曆史了。機器學習
【學術、經典、陳舊】MNIST:最經常使用的完整性檢查數據集,圖像大小爲28x28的黑白手寫數字,但在 MNIST 上性能良好,並不意味着模型自己很好。分佈式
地址:http://pjreddie.com/projects/mnist-in-csv/佈局
【經典、陳舊】CIFAR 10 & CIFAR 100:32x32的彩色圖像數據集,雖然已經不經常使用,但也能夠用做完整性檢查。性能
地址:https://www.cs.toronto.edu/~kriz/cifar.html學習
【有用、學術、經典】ImageNet:新算法實際上使用的圖像數據集,不少圖像 API 公司從其 REST 接口獲取標籤,這些標籤被懷疑與 ImageNet 的下一級 WordNet 的 1000 個類很類似。
LSUN:用於場景理解和多任務輔助(房間佈局估計,顯着性預測等)。
地址:http://lsun.cs.princeton.edu/2016/
【學術】PASCAL VOC:一個通用的圖像分割/分類數據集,對構建真實圖像的註釋用處不是特別大,但對於基線頗有用。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
【學術】SVHN:數據來源於 Google 街景視圖中的房屋數量,能夠用做野外的週期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO:一個通用的圖像理解/字幕數據集。
【有用】Visual Genome:很是詳細的視覺知識數據集,包含約100K圖像的深字母。
【有用、學術、經典、陳舊】Labeled Faces in the Wild:使用名稱標識符標記的面部區域數據集,經常使用於訓練面部識別系統。
地址:http://vis-www.cs.umass.edu/lfw/
【有用】Question Pairs:第一個來源於 Quora 的包含重複/語義類似性標籤的數據集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用、學術】SQuAD:斯坦福大學的問答數據集,普遍用於問題回答和閱讀理解,其中每一個問題和答案都是文本片斷的形式。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset:人工生成的問題/答案對,難度評級來自維基百科文章。
地址:http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba Datasets:用於狀態性的天然語言理解研究的人工製做的精細數據集。
地址:https://datasets.maluuba.com/
【有用、學術】Billion Words:一個大型、通用的語言建模數據集,經常使用於如 word2vec 或 Glove 的分佈式詞語表徵。
地址:http://www.statmt.org/lm-benchmark/
【有用、學術】Common Crawl:Petabyte 級規模的網絡爬行數據集,經常使用於學習詞嵌入。
地址:http://commoncrawl.org/the-data/
【學術、經典】bAbi:來自 FAIR 的閱讀理解和問答應答數據集。
地址:https://research.fb.com/projects/babi/
【學術】The Children’s Book Test:從古登堡計劃的童書中提取的(問題+上下文,答案)的基線,該數據集對問題回答、閱讀理解和模擬陳述有用。
地址:https://research.fb.com/projects/babi/
【學術、經典、陳舊】Stanford Sentiment Treebank:一個標準情感數據集,數據集中每一個句子解析樹的每一個節點都有精細的情感註釋。
地址:http://nlp.stanford.edu/sentiment/code.html
【經典、陳舊】20 Newsgroups:一個文本分類的經典數據集,一般用於純分類或做爲任何 IR/索引算法的基準。
地址:http://qwone.com/~jason/20Newsgroups/
【經典、陳舊】IMDB:一個比較舊,規模也相對較小的二院情感分類數據集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
【經典、陳舊】UCI’s Spambase:這是一個年代較久遠的、經典的垃圾電子郵件數據集,來源是著名的 UCI 機器學習庫。因爲該數據集在設計細節上的獨特之處,能夠用做學習個性化垃圾郵件過濾的一個有趣的基線。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
大多數語音識別數據集是專有的,由於這些數據對於建立該數據集的公司來講具備很大價值。所以,這部分的可用公開數據集多數比較陳舊。
【學術、陳舊】2000 HUB5 English:僅包含英語的語音數據集,百度最近的論文《深度語音:擴展端對端語音識別》使用的是這個數據集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
【學術】LibriSpeech:包含文本和語音的有聲讀物數據集,由近500小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。
【有用、學術】VoxForge:帶口音的語音清潔數據集,對測試模型在不一樣重音或語調下的魯棒性很是有用。
【學術、經典、陳舊】TIMIT:英文語音識別數據集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME:包含環境噪音的語音識別挑戰賽數據集。該數據集包含真實、模擬和清潔的語音錄音,具體來講,包括4個揚聲器在4個有噪音環境下進行的將近9000次錄音,模擬數據是將多個環境組合及在無噪音環境下記錄的數據。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED Talk 的音頻數據集,包含1495個TED演講的錄音及全文的文字稿。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
【經典、陳舊】Netflix Challenge:第一個主要的 Kaggle 挑戰賽數據集,但因爲隱私問題,只有非正式的數據集提供。
地址:http://www.netflixprize.com/
【有用、學術、經典】MovieLens:多種大小的電影評論數據,一般用於基線協同過濾。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:Kaggle 上的大型、元數據豐富的開源數據集,對混合推薦系統有用。
地址:https://www.kaggle.com/c/msdchallenge
【有用】Last.fm:可訪問底層社交網絡及其餘元數據的音樂推薦數據集,這些元數據對混合系統頗有用。
地址:http://grouplens.org/datasets/hetrec-2011/
【學術】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網站的「買了該產品的用戶也買了......」板塊的數據,以及相關產品的亞馬遜評論數據。適合用於推薦系統。
地址:http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:包含103,750,348個 Friendster 用戶的好友列表的匿名數據集。
地址:https://archive.org/details/friendster-dataset-201107
【有用、經典】OpenStreetMap:免費許可的全球矢量數據集,包含美國人口普查局的 TIGER數據。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8:衛星拍攝的地球表面照片數據,每隔幾周更新一次。
地址:https://landsat.usgs.gov/landsat-8
【有用】NEXRAD:多普勒雷達掃描的美國大氣環境數據。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
人們經常覺得在一個數據集上解決了問題就等同於獲得好的產品了。但在使用這些數據集做爲驗證或概念證實時,不要忘記用更新、更接近現實的數據來測試產品的功能,從而可以做出改進。一個成功的以數據做爲驅動力的企業一般可以從他們收集新的、專有的數據的能力中獲益,進而提高競爭力。
編譯自:medium.com,譯者:新智元劉小芹