入門 | 從文本處理到自動駕駛:機器學習最經常使用的50大免費數據集

機器學習領域裏有哪些開放數據集?Gengo 近日發佈了一份高質量免費數據集列表,其搜索範圍不只包含內容普遍(如 Kaggle),也包括高度特化的(如自動駕駛汽車專用數據集)數據集種類。





首先,在選擇數據集時要記住幾個重要標準:php


  • 數據集不能是混亂的,由於你不但願花費大量時間整理數據。
  • 數據集不該該有過多的行或者列,這樣才能容易處理。
  • 數據越乾淨越好——清理大型數據集可能會很是耗時。
  • 該數據集能夠用於回答一些有趣的問題。


這樣的話,讓咱們看看能找到點什麼?html


查找數據集python


Kaggle:一個數據科學競賽網站,其中包含大量外部貢獻的有趣數據集。你能夠在它長長的列表中(www.kaggle.com/datasets)找到各類小衆數據集,從拉麪的評分、籃球數據,到西雅圖的寵物牌照。web


UCI Machine Learning Repository:它是網絡中最古老的數據集源之一,是尋找各類有趣數據集的第一選擇。在這裏,儘管數據集都是用戶自行貢獻的,但清潔程度仍然很高。此外,你能夠直接從 UCI Machine Learning Repository 上下載數據,無需註冊。算法


通用數據集編程


公共政府數據集json





Data.gov:這個網站能夠從多個美國政府機構下載數據,從政府預算到學校成績。不過要注意:其中的大部分數據須要進一步研究。網絡

連接:www.data.gov/dom


Food Environment Atlas:包含有關本地食物選擇如何影響美國飲食習慣的數據。機器學習

連接:

catalog.data.gov/dataset/foo…


School system finances:美國學校系統財務情況調查。

連接:

catalog.data.gov/dataset/ann…


Chronic disease data:美國各地慢性病指標數據。

連接:

catalog.data.gov/dataset/u-s…


The US National Center for Education Statistics:美國和世界各地教育機構和教育人口統計數據。

連接:nces.ed.gov/


The UK Data Centre:英國最大的社會、經濟和人口數據收集。

連接:www.ukdataservice.ac.uk/


Data USA:美國公共數據的全面可視化。

連接:datausa.io/


金融類





Quandl:很好的財經數據來源——有助於創建預測經濟指標或股票價格的模型。

連接:www.quandl.com/


World Bank Open Data:涵蓋人口統計和世界各地大量經濟和發展指標的數據集。

連接:data.worldbank.org/


IMF Data:國際貨幣基金組織公佈有關國際金融、債務利率、外匯儲備、商品價格和投資的數據。

連接:www.imf.org/en/Data


Financial Times Market Data:世界金融市場的最新信息,包括股票價格指數、商品和外匯。

連接:markets.ft.com/data/


Google Trends:觀察和分析有關互聯網搜索活動和世界各地新聞故事趨勢的數據。

連接:

www.google.com/trends?q=go…


AmericanEconomic Association (AEA):尋找美國宏觀經濟數據的來源。

連接:www.aeaweb.org/resources/d…


機器學習數據集


圖像





Labelme:註釋圖像的大數據集。

連接:

labelme.csail.mit.edu/Release3.0/…


ImageNet:著名的 ImageNet,由斯坦福大學教授李飛飛等人發起,它是面向新算法的真實圖像數據集。根據 WordNet 層次結構來組織,其中層次結構的每一個節點都由成百上千個圖像來描述。

連接:image-net.org/


LSUN:場景理解和許多輔助任務(房間佈局估計、顯著性預測等)。

連接:lsun.cs.princeton.edu/2016/


MS COCO:ImageNet 以外另外一個經常使用的圖像數據集,包含通用圖像理解和註釋。

連接:cocodataset.org/


COIL100:100 個不一樣的物體在 360°旋轉中以每一個角度成像。

連接:

www1.cs.columbia.edu/CAVE/softwa…


Visual Genome:很是詳細的視覺知識庫,配有約 100K 個圖像的註釋。

連接:visualgenome.org/


Google's Open Images:Creative Commons 下的 900 萬個圖片的網址集合,「已經標註了跨越 6000 多個類別的標籤」。

連接:

research.googleblog.com/2016/09/int…


Labelled Faces in the Wild:13000 張貼有標籤的人臉圖像,用於開發涉及人臉識別的應用。

連接:vis-www.cs.umass.edu/lfw/


Stanford Dogs Dataset:包含 20580 個圖像和 120 個不一樣品種的狗類別。

連接:

vision.stanford.edu/aditya86/Im…


Indoor Scene Recognition:很是具體的數據集,適用於大多數場景識別模型,由於後者在「外部」表現更好。包含 67 個室內類別,總共 15620 個圖像。

連接:

web.mit.edu/torralba/ww…


情感分析





Multidomain Sentiment analysis dataset:有點舊的一個數據集,以亞馬遜的產品評論爲特點。

連接:

www.cs.jhu.edu/~mdredze/da…


IMDB reviews:用於二進制情感分類的較舊的、相對較小的數據集,具備 25000 個電影評論。

連接:

ai.stanford.edu/~amaas/data…


Stanford Sentiment Treebank:帶有情感註釋的標準情感數據集。

連接:

nlp.stanford.edu/sentiment/c…


Sentiment140:一個流行的數據集,使用 16 萬條預先刪除表情符號的推文

連接:help.sentiment140.com/for-student…


Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數據,分爲正面、負面和中性。

連接:

www.kaggle.com/crowdflower…


天然語言處理





Enron Dataset:Enron 公司高層管理人員的電子郵件數據,整理成文件夾。

連接:www.cs.cmu.edu/~./enron/


Amazon Reviews:包含來自亞馬遜長達 18 年的約 3500 萬條評論。數據包括產品和用戶信息、評級和明文審查。

連接:snap.stanford.edu/data/web-Am…


Google Books Ngrams:Google 書籍中的詞聚集合。

連接:

aws.amazon.com/cn/datasets…


Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每一個博客至少包含 200 個經常使用英語單詞。

連接:

u.cs.biu.ac.il/~koppel/Blo…


Wikipedia Links data:維基百科全文。數據集包含 400 多萬篇文章中的近 19 億字。你能夠根據單詞、短語或段落自己的一部分進行搜索。

連接:code.google.com/p/wiki-link…


Gutenberg eBooks List:古騰堡計劃電子書註釋清單。

連接:

www.gutenberg.org/wiki/Gutenb…


Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。

連接:www.isi.edu/natural-lan…


Jeopardy:機智問答節目 Jeopardy 中存檔的 20 多萬個問題。

連接:

www.reddit.com/r/datasets/…


SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數據集

連接:

www.dt.fee.unicamp.br/~tiago/smss…


Yelp Reviews:Yelp 發佈的開放數據集包含 500 多萬條評論。

連接:www.yelp.com/dataset


UCI's Spambase:大型垃圾郵件數據集,可用於垃圾郵件過濾。

連接:

archive.ics.uci.edu/ml/datasets…


自動駕駛





Berkeley DeepDrive BDD100k:目前最大的自動駕駛人工智能數據集。包含 100000 多段視頻,內容涉及一天中不一樣時間和天氣條件下 1100 多小時的駕駛體驗。註釋圖像來自紐約和舊金山地區。

連接:bdd-data.berkeley.edu/


Baidu Apolloscapes:百度 Apollo 計劃開放的大規模自動駕駛數據集。它定義了 26 個不一樣語義項目,如汽車、自行車、行人、建築物、路燈等。

連接:apolloscape.auto/


Comma.ai:7 小時以上的公路行駛體驗。詳細信息包括車速、加速度、轉向角和 GPS 座標。

連接:archive.org/details/com…


Oxford's Robotic Car:一年內在英國牛津同一條路線重複 100 屢次的行駛。數據集捕捉天氣、交通和行人的不一樣組合,以及建築和道路工程等長期變化。

連接:robotcar-dataset.robots.ox.ac.uk/


Cityscape Dataset:記錄 50 個不一樣城市街道場景的大型數據集。

連接:www.cityscapes-dataset.com/


CSSAD Dataset:該數據集可用於自主車輛的感知和導航。數據集在發達國家的道路上出現嚴重誤差。

連接:

aplicaciones.cimat.mx/Personal/jb…


KUL Belgium Traffic Sign Dataset:比利時佛蘭德區數以千計大相徑庭的超過 10000 個的交通標誌標註。

連接:

www.vision.ee.ethz.ch/~timofter/t…


MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅動數據集樣本。

連接:lexfridman.com/carsync/


LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數據集包括交通標誌、車輛檢測、交通燈和軌跡模式。


關注公衆帳號

飛馬會


往期福利關注飛馬會公衆號,回覆對應關鍵詞打包下載學習資料;回覆「入羣」,加入飛馬網AI、大數據、項目經理學習羣,和優秀的人一塊兒成長!

微軟大牛人工智能系列課

(掃碼試聽或訂閱)



m.qlchat.com/live/channe… (二維碼自動識別)



回覆 數字「2」機器學習 & 數據科學必讀的經典書籍,內附資料包!

回覆 數字「3」走進AI & ML:從基本的統計學到機器學習書單(附PDF下載)

回覆 數字「12」小白| Python+Matlab+機器學習+深度神經網絡+理論+實踐+視頻+課件+源碼,附下載!


回覆 數字「13」大數據技術教程+書籍+Hadoop視頻+大數據研報+科普類書籍

回覆 數字「14」小白| 機器學習和深度學習必讀書籍+機器學習實戰視頻/PPT+大數據分析書籍推薦!

回覆 數字「16」100G Python從入門到精通!自學必備全套視頻教程+python經典書籍!

回覆 數字「18」526份行業報告+白皮書:AI人工智能、機器人、智能出行、智能家居、物聯網、VR/AR、 區塊鏈等(附下載)

回覆 數字「19」800G人工智能學習資料:AI電子書+Python語言入門+教程+機器學習等限時免費領取!

回覆 數字「20」17張思惟導圖,一網打盡機器學習統計基礎(附下載)

回覆 數字「22」吳恩達新書,教你構建機器學習項目:《Machine Learning Yearning》

回覆 數字「23」機器學習:怎樣才能作到從入門到不放棄?(內含福利)

回覆 數字「24」限時下載 | 132G編程資料:Python、JAVA、C,C++、機器人編程、PLC,入門到精通~

回覆 數字「25」限資源 | 177G Python/機器學習/深度學習/算法/TensorFlow等視頻,涵蓋入門/中級/項目各階段!

回覆 數字「27」資源 | 吳恩達斯坦福CS230深度學習課程全套資料放出(附下載)

回覆 人工智能下載《FMI人工智能與大數據峯會嘉賓演講PPT》

回覆 AI 江湖下載《十大AI江湖領域》

回覆 ML實踐下載《機器學習實踐經驗指導(英文版)》

回覆 DL論文下載《深度學習100篇以上論文資料》

回覆 算法 下載《數據挖掘十大經典算法》

回覆 6.10 下載《6.10餓了麼&飛馬網項目管理實踐PPT》

相關文章
相關標籤/搜索