在機器學習中,設計的算法須要經過數據集來驗證。此外,對於標註的數據,在必定程度上驅動着一個個新的算法研究出來,逼近人的識別能力。php
本文是用於機器學習的開放數據集的清單。覆蓋範圍包括財經,計算機視覺,天然語言處理,語音文本處理,情感分析,自動駕駛,人臉識別等領域。html
學習機器學習的最好方法是在不一樣的項目中練習。你可使用這些主要的數據集查找器在線搜索和下載免費的數據集。git
一個數據科學站點,其中包含各類外部貢獻的有趣數據集。 您能夠在其主列表中找到各類小衆數據集,從拉麪等級到籃球數據,甚至到西雅圖寵物許可證。
Kaggle: https://www.kaggle.com/github
網絡上最古老的數據集來源之一,也是尋找有趣的數據集的絕佳起點。 儘管數據集是用戶提供的,所以具備不一樣的清潔度,可是絕大多數是清潔的。 您能夠直接從UCI機器學習存儲庫下載數據,而無需註冊。
UCI Machine Learning Repository: http://mlr.cs.umass.edu/ml/web
事實證實,機器學習對於金融行業來講是百年不遇的機會,記錄了數十年的量化金融數據造成了一個很是大的數據集,所以它很是適合於機器學習。實際上,機器學習如今已經開始慢慢改變金融和銀行投資業務,包括股市預測,投資分析與決策等。在經濟學中,機器學習能夠用來創建經濟學模型和預測客戶行爲。算法
一個有助於創建預測經濟指標或股票價格模型的數據集
https://www.quandl.com/數據庫
涵蓋全球人口統計數據和大量經濟與發展指標的數據集。
https://data.worldbank.org/json
國際貨幣基金組織發佈有關國際金融,債務利率,外匯儲備,商品價格和投資的數據。
https://www.imf.org/en/Data跨域
來自世界各地的金融市場的最新信息,包括股票價格指數,商品和外匯。
https://markets.ft.com/data/微信
檢查和分析有關互聯網搜索活動和全球趨勢新聞的數據。
https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0
查找美國宏觀經濟數據的良好來源
https://www.aeaweb.org/resources/data/us-macro-regional
深證創業板日線數據,1999.12.09 至2016.06.08,前復權,510支股票
http://dataju.cn/Dataju/web/datasetInstanceDetail/39
深證A股日線數據,1999.12.09至 2016.06.08,前復權,1766支股票
http://dataju.cn/Dataju/web/datasetInstanceDetail/38
上證A股日線數據,1999.12.09至 2016.06.08,前復權,1095支股票
http://dataju.cn/Dataju/web/datasetInstanceDetail/37
深證創業板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,636支股票
http://dataju.cn/Dataju/web/datasetInstanceDetail/343
滬深股票除權除息、配股增發全量數據,截止 2016.12.31
http://dataju.cn/Dataju/web/datasetInstanceDetail/344
房地產公司 Zillow 公開美國房地產歷史數據
http://dataju.cn/Dataju/web/datasetInstanceDetail/380
美國勞工部統計局官方發佈數據
http://dataju.cn/Dataju/web/datasetInstanceDetail/139
Forex平臺外匯交易歷史數據
http://dataju.cn/Dataju/web/datasetInstanceDetail/67
Airbnb 開放的民宿信息和住客評論數據
http://dataju.cn/Dataju/web/datasetInstanceDetail/309
圖像數據集可用於訓練各類計算機視覺應用,例如醫學成像技術,自動駕駛汽車和麪部識別。
大量帶註釋的圖片
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
用於新算法的實際圖像數據集。根據WordNet層次結構進行組織,其中層次結構的每一個節點由成千上萬的圖像描繪。
http://image-net.org/
多輔助場景理解(房間佈局估計,顯着性預測等)
http://lsun.cs.princeton.edu/2016/
通常圖像理解和字幕。
http://cocodataset.org/#home
以360度旋轉的每一個角度拍攝100個不一樣的物體。
COIL100:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
很是詳細的視覺知識庫,包含約100K幅圖像的字幕
Visual Genome: http://visualgenome.org/
共有900萬個圖片的url,這些圖片在Creative Commons下被標註了超過6000個類別的標籤
Google’s Open Images: https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
13000張有標籤的人臉圖像,用於開發涉及面部識別的應用程序
Labelled Faces in the Wild: http://vis-www.cs.umass.edu/lfw/
包含20580張圖片和120種不一樣的狗品種。
Stanford Dogs Dataset: http://vision.stanford.edu/aditya86/ImageNetDogs/
包含67個室內類別,共15620個圖像
Indoor Scene Recognition: http://web.mit.edu/torralba/www/indoor.html
Fashion-MNIST風格服飾圖像數據集
https://github.com/zalandoresearch/fashion-mnist
大型(50萬)LOGO標誌數據集
https://data.vision.ee.ethz.ch/cvl/lld/
YouTube MV視頻數據集添加連接描述
https://github.com/keunwoochoi/YouTube-music-video-5M
計算機視覺合成數據集/工具大列表
https://github.com/unrealcv/synthetic-computer-vision
Pixiv(着色)圖片數據集
https://github.com/jerryli27/pixiv_dataset
大規模日語圖片描述數據集
https://github.com/STAIR-Lab-CIT/STAIR-captions
PyTorch實現的VOC2012數據集Pixel-wise目標分割
https://github.com/bodokaiser/piwise
Cityscapes街景語義分割數據集
https://github.com/mcordts/cityscapesScripts
COCO像素級標註數據集
https://github.com/nightrome/cocostuff
13000 張貼有標籤的人臉圖像,用於開發涉及人臉識別的應用。
Labelled Faces in the Wild:http://vis-www.cs.umass.edu/lfw/
MNIST:手寫數字圖像。最經常使用的可用性檢查。格式 25x2五、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST,不意味着它有效
http://yann.lecun.com/exdb/mnist
CIFAR10 / CIFAR100:32x32 彩色圖像,10/100 類。雖然仍有趣卻再也不經常使用的可用性檢查
http://www.cs.utoronto.ca/~kriz/cifar.htm
Caltech 101:101 類物體的圖片
http://www.vision.caltech.edu/Image_Datasets/Caltech101
Caltech 256:256 類物體的圖片
http://www.vision.caltech.edu/Image_Datasets/Caltech256
STL-10 數據集:用於開發無監督特徵學習、深度學習、自學習算法的圖像識別數據集。像修改過的 CIFAR-10
http://cs.stanford.edu/~acoates/stl10
The Street View House Numbers (SVHN):Google 街景中的門牌號碼。能夠把它想象成復現的戶外 MNIST
http://ufldl.stanford.edu/housenumbers
NORB:玩具擺件在各類照明和姿式下的雙目圖像
http://www.cs.nyu.edu/~ylclab/data/norb-v1.0
Pascal VOC:通用圖像分割 / 分類——對於構建真實世界圖像註釋不是很是有用,但對基線頗有用
http://pascallin.ecs.soton.ac.uk/challenges/VOC
Labelme:帶註釋圖像的大型數據集
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.ph
ImageNet:新算法的客觀圖像數據集(de-facto image dataset)。許多圖像 API 公司都有來自其 REST 接口的標籤,這些標籤近 1000 類;WordNet; ImageNet 的層次結構
http://image-net.org
LSUN:具備不少輔助任務的場景理解(房間佈局估計,顯著性預測(saliency * prediction)等),有關聯競賽。(associated competition)
地址:http://lsun.cs.princeton.edu/2016
MS COCO:通用圖像理解 / 說明,有關聯競賽
http://mscoco.org
COIL 20:不一樣物體在 360 度旋轉中以每一個角度成像
地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.ph
COIL100:不一樣物體在 360 度旋轉中以每一個角度成像
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.ph
Google 開源圖像:有 900 萬張圖像的網址集合,這些圖像經過知識共享(Creative Commons)被標註成 6000 多個類別
https://research.googleblog.com/2016/09/introducing-open-images-dataset.htm
情感分析模型須要龐大的專業數據集纔能有效學習,如下所列數據集提供了用於情感分析的一些數據。
亞馬遜商品評價數據集
Multidomain sentiment analysis dataset: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
二元情感分類數據集,包含25000條電影評論
IMDB Reviews: http://ai.stanford.edu/~amaas/data/sentiment/
帶有情緒註釋的標準情緒數據集
Stanford Sentiment Treebank: https://nlp.stanford.edu/sentiment/code.html
2015年2月美國航空公司推特數據,分爲正面、負面和中性推特
Twitter US Airline Sentiment: https://www.kaggle.com/crowdflower/twitter-airline-sentiment
跨域(Amazon商品評論)情感數據集
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
OpenStreetMap:免費提供整個星球的矢量數據。它包含(舊版)美國人口普查局的數據
http://wiki.openstreetmap.org/wiki/Planet.os
Landsat8:整個地球表面的衛星視角圖,每隔幾周更新一次
https://landsat.usgs.gov/landsat-
NEXRAD:美國大氣層的多普勒雷達掃描圖
https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
Arcade Universe:一我的工數據集生成器,圖像包含街機遊戲 sprite,如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器
https://github.com/caglar/Arcade-Univers
以 Baby AI School 爲靈感的數據集集合
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchoo
Baby AI Shapes Dataset:區分 3 種簡單形狀
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDataset
Baby AI Image And Question Dataset:一個問題 - 圖像 - 答案數據集
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDataset
Deep Vs Shallow Comparison ICML2007:爲實證評估深層架構而生成的數據集
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML200
MnistVariations:在 MNIST 中引入受控變化
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariation
RectanglesData:區分寬矩形和垂直矩形
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesDat
ConvexNonConvex:區分凸形和非凸形狀
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConve
BackgroundCorrelation:嘈雜 MNIST 背景下相關度的控
http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation
Labelled Faces in the Wild:13000 個通過裁剪的人臉區域(使用已經用名稱標識符標記過的 Viola-Jones)。數據集中每一個人員的子集裏包含兩個圖像——人們經常使用此數據集訓練面部匹配系統
http://vis-www.cs.umass.edu/lfw
UMD Faces:有 8501 個主題的 367,920 個面孔的帶註釋數據集
http://www.umdfaces.io
CASIA WebFace:超過 10,575 我的經面部檢測的 453,453 張圖像的面部數據集。須要一些質量過濾
http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.htm
MS-Celeb-1M:100 萬張全世界的名人圖片。須要一些過濾才能在深層網絡上得到最佳結果
https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world
Olivetti:一些人類的不一樣圖像
http://www.cs.nyu.edu/~roweis/data.htm
Multi-Pie:The CMU Multi-PIE Face 數據庫
http://www.multipie.org
Face-in-Action:http://www.flintbox.com/public/project/5486
JACFEE:日本和白種人面部情緒表達的圖像
http://www.humintell.com/jacfee
FERET:面部識別技術數據庫
http://www.itl.nist.gov/iad/humanid/feret/feret_master.htm
mmifacedb:MMI 面部表情數據庫
http://www.mmifacedb.com
IndianFaceDatabase:http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase
耶魯人臉數據庫:http://vision.ucsd.edu/content/yale-face-databas
Mut1ny 頭部 / 面部分割數據集:像素超過 16K 的面部 / 頭部分割圖
http://www.mut1ny.com/face-headsegmentation-dataset
天然語言處理是一個普遍的研究領域,如下包括用於不一樣天然語言處理任務(例如語音識別和聊天機器人)的普遍數據集。
來自Enron公司高級管理人員的郵件數據
Enron Dataset: https://www.cs.cmu.edu/~./enron/
包含來自亞馬遜18年來的3500萬條評論。數據包括產品和用戶信息,評級以及明文評論。
Amazon Reviews: https://snap.stanford.edu/data/web-Amazon.html
Google圖書中的單詞數據集
Google Books Ngrams: https://aws.amazon.com/cn/datasets/google-books-ngrams/
從blogger.com收集的681,288個博客帖子集合。每一個博客至少包含200個經常使用英語單詞
Blogger Corpus: http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
維基百科的全文數據集,包含來自超過400萬篇文章的近19億個單詞。 能夠按單詞,短語或段落自己的一部分進行搜索。
Wikipedia Links data: https://code.google.com/archive/p/wiki-links/downloads
Groject Gutenberg 中帶註釋的電子書清單。
Gutenberg eBooks List: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
130萬對加拿大第36屆國會記錄中的文字。
Hansards text chunks of Canadian Parliament: https://www.isi.edu/natural-language/download/hansard/
測驗節目Jeopardy存檔了超過20萬個問題。
Jeopardy: http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
由5,574條英文SMS垃圾郵件組成的數據集
SMS Spam Collection in English: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
Yelp發佈的開放數據集包含超過500萬條評論。
Yelp Reviews: https://www.yelp.com/dataset
大型垃圾郵件電子郵件數據集,可用於垃圾郵件過濾。
UCI’s Spambase: https://archive.ics.uci.edu/ml/datasets/Spambase
機器學習保險行業問答開放數據集
https://github.com/shuzi/insuranceQA
保險行業問答(QA)數據集
https://github.com/shuzi/insuranceQA
英語詞/句/語義框架框架標註數據集
https://framenet.icsi.berkeley.edu/fndrupal/
Quora數據集:400000行潛在重複問題
http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
20 newsgroups:分類任務,將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一,一般可用做純分類的基準或任何 IR / 索引算法的驗證
http://qwone.com/~jason/20Newsgroups
路透社新聞數據集:(較舊)純粹基於分類的數據集,包含來自新聞專線的文本。經常使用於教程
https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collectio
賓州樹庫:用於下一個單詞或字符預測
http://www.cis.upenn.edu/~treebank
UCI‘s Spambase:來自著名的 UCI 機器學習庫的(舊版)經典垃圾郵件數據集。根據數據集的組織細節,能夠將它做爲學習私人垃圾郵件過濾的基線
https://archive.ics.uci.edu/ml/datasets/Spambas
Broadcast News:大型文本數據集,一般用於下一個單詞預測
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S4
文本分類數據集:來自 Zhang et al., 2015。用於文本分類的八個數據集合集。這些是用於新文本分類基線的基準。樣本大小從 120K 至 3.6M 不等,範圍從二進制到 14 個分類問題。數據集來自 DBPedia、亞馬遜、Yelp、Yahoo!和 AG
https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2
WikiText:來自維基百科高質量文章的大型語言建模語料庫,由 Salesforce MetaMind 策劃
http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset
SQuAD:斯坦福問答數據集——應用普遍的問答和閱讀理解數據集,其中每一個問題的答案都以文本形式呈現
https://rajpurkar.github.io/SQuAD-explorer
Billion Words 數據集:一種大型通用語言建模數據集。一般用於訓練分佈式單詞表徵,如 word2vec
http://www.statmt.org/lm-benchmark
Common Crawl:網絡的字節級抓取——最經常使用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也能夠用做網絡數據集,由於它可在萬維網進行抓取
http://commoncrawl.org/the-data
Google Books Ngrams:來自 Google book 的連續字符。當單詞首次被普遍使用時,提供一種簡單的方法來探索
https://aws.amazon.com/datasets/google-books-ngrams
Yelp 開源數據集:Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集
https://www.yelp.com/dataset
Movielens:來自 Movielens 網站的電影評分數據集,各種大小都有
https://grouplens.org/datasets/movielens
Million Song 數據集:Kaggle 上元數據豐富的大型開源數據集,能夠幫助人們使用混合推薦系統
https://www.kaggle.com/c/msdchalleng
Last.fm:音樂推薦數據集,可訪問深層社交網絡和其它可用於混合系統的元數據
http://grouplens.org/datasets/hetrec-2011
Book-Crossing 數據集:來自 Book-Crossing 社區。包含 278,858 位用戶提供的約 271,379 本書的 1,149,780 個評分
http://www.informatik.uni-freiburg.de/~cziegler/BX
Jester:來自 73,421 名用戶對 100 個笑話的 410 萬個連續評分(分數從 -10 至 10)
http://www.ieor.berkeley.edu/~goldberg/jester-data
Netflix Prize:Netflix 發佈了他們的電影評級數據集的匿名版;包含 480,000 名用戶對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格數據挑戰。隨着隱私問題的出現,只能提供非正式版
http://www.netflixprize.com/
2000 HUB5 English:最近在 Deep Speech 論文中使用的英語語音數據,從百度獲取
https://catalog.ldc.upenn.edu/LDC2002T4
LibriSpeech:包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各類有聲讀物演講內容組成,包含帶有文本和語音的章節
http://www.openslr.org/12
VoxForge:帶口音的清晰英語語音數據集。適用於提高不一樣口音或語調魯棒性的案例
http://www.voxforge.org
TIMIT:英語語音識別數據集
https://catalog.ldc.upenn.edu/LDC93S
CHIME:嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成,仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成
http://spandh.dcs.shef.ac.uk/chime_challenge/data.htm
TED-LIUM:TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄
http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
Piano-midi.de: 古典鋼琴
http://www.piano-midi.de
Nottingham : 超過 1000 首民
http://abc.sourceforge.net/NMD
MuseData: 古典音樂評分的電子圖書
http://musedata.stanford.edu
JSB Chorales: 四部協奏
http://www.jsbchorales.net/index.shtml
自動駕駛汽車須要使用大量高質量的數據集進行訓練,以便他們能夠準確地感知其環境和周圍物體。
當前自動駕駛+AI的最大數據集。 包含超過100,000個視頻,這些視頻在一天中的不一樣時間和天氣狀況下提供1,100個小時以上的駕駛體驗。 帶註釋的圖像來自紐約和舊金山地區。
Berkeley DeepDrive BDD100k: https://bdd-data.berkeley.edu/
大型圖像數據集,定義了26種不一樣的語義項,例如汽車,自行車,行人,建築物,路燈等。
Baidu Apolloscapes: http://apolloscape.auto/
超過7個小時的高速公路行駛。詳細信息包括汽車的速度,加速度,轉向角和GPS座標。
Comma.ai: https://archive.org/details/comma-dataset
在一年的時間內,經過英國牛津的同一條路線的100屢次重複。數據集捕獲天氣,交通和行人的不一樣組合,以及諸如建築和道路工程等長期變化。
Oxford’s Robotic Car: https://robotcar-dataset.robots.ox.ac.uk/
記錄了50個不一樣城市中的城市街道場景的大型數據集。
Cityscape Dataset: https://www.cityscapes-dataset.com/
該數據集對於自動駕駛車輛的感知和導航頗有用。數據集在發達國家發現的道路上嚴重傾斜。
CSSAD Dataset: http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset
來自比利時佛蘭德地區數千個物理上不一樣的交通標誌的10000多個交通標誌註釋。
KUL Belgium Traffic Sign Dataset: http://www.vision.ee.ethz.ch/~timofter/traffic_signs/
在AgeLab收集的1,000多個小時的多傳感器駕駛數據集的樣本。
MIT AGE Lab: https://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
該數據集包括交通標誌,車輛檢測,交通訊號燈和軌跡模式。
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: http://cvrr.ucsd.edu/LISA/datasets.html
使用Python自動駕駛俠盜獵車手
https://github.com/sentdex/pygta5
人口統計數據是重大經濟決策的基礎,是改善政府和社會的有力工具。 使用公共政府數據進行訓練的機器學習模型能夠幫助決策者識別趨勢,併爲與人口減小或增加,老齡化和移民有關的問題作好準備。
該站點能夠從多個美國政府機構下載數據。數據範圍從政府預算到學校成績。 請注意:許多數據須要進一步研究。
Data.gov: https://www.data.gov/
包含有關當地食物選擇如何影響美國飲食的數據。
Food Environment Atlas: https://catalog.data.gov/dataset/food-environment-atlas-f4a22
美國學校系統財務情況的調查。
School system finances: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
Data on chronic disease indicators in areas across the US.
Chronic disease data: https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
美國和世界各地有關教育機構和教育人口統計數據。
The US National Center for Education Statistics: https://nces.ed.gov/
英國最大的社會,經濟和人口數據收集。
The UK Data Service: https://www.ukdataservice.ac.uk/
美國公共數據的全面可視化。
Data USA: https://datausa.io/
更多精彩內容請關注微信公衆號 「優化與算法」和QQ討論羣1032493483