33個機器學習經常使用數據集

如果本文能幫助到你們,但願能夠關注 並轉發分享!(thanks)html

現現在構建人工智能或機器學習系統比以往的時候更加容易。廣泛存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上經過 AWS 的大規模計算力、Google Cloud 或其餘供應商的雲計算,這些都意味着你能夠在下午休閒時間使用筆記本電腦去訓練出最前沿的機器學習模型。算法

數據集對於深度學習模型的重要性不言而喻,然而根據性質、類型、領域的不一樣,數據集每每散落在不一樣的資源平 臺裏,急需人們作出整理。網絡

少了數據,咱們的機器學習和深度學習模型什麼也幹不了。這麼說吧,那些建立了數據集、讓咱們能夠訓練模型的 人,都是咱們的英雄,雖然這些人經常並無獲得足夠的感謝。讓人慶幸的是,那批最有價值的數據集後來成了 「學術基準線」——被研究人員普遍引用,尤爲在算法變化的對比上;很多名字則成爲圈內外都耳熟能詳的名 稱,如 MNIST、CIFAR 10 以及 Imagenet 等。機器學習

若是您在研究中使用了這些數據集,咱們但願您記得引用原始論文(咱們已經在表單中提供引用 連接);若是您將它們用做商業或教育項目的一部分,請考慮添加致謝文及數據集原連接。工具

咱們之因此常常在教學中引用這些數據集,是由於它們就是學生們頗有可能遇到的數據類型的絕佳例子,此外,學 生能夠將本身的工做與引用這些數據集的學術成果進行對比,從而取得進步。此外,咱們也會使用 Kaggle Competitions 數據集,Kaggle 的 public leaderboards 容許學生在世界最好的數據集裏測試本身的模型,不過 Kaggle 數據集並不會在本次表單中出現。性能

圖像分類領域

1)MNIST學習

經典的小型(28x28 像素)灰度手寫數字數據集,開發於 20 世紀 90 年代,主要用於測試當時最複雜的模型;到 了今日,MNIST 數據集更多被視做深度學習的基礎教材。fast.ai 版本的數據集捨棄了原始的特殊二進制格式,轉 而採用標準的 PNG 格式,以便在目前大多數代碼庫中做爲正常的工做流使用;若是您只想使用與原始一樣的單輸 入通道,只需在通道軸中選取單個切片便可。測試

引文:http://yann.lecun.com/exdb/publis/index.html#lecun-98雲計算

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz人工智能

2)CIFAR10

10 個類別,多達 60000 張的 32x32 像素彩色圖像(50000 張訓練圖像和 10000 張測試圖像),平均每種類別 擁有 6000 張圖像。普遍用於測試新算法的性能。fast.ai 版本的數據集捨棄了原始的特殊二進制格式,轉而採用

標準的 PNG 格式,以便在目前大多數代碼庫中做爲正常的工做流使用。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3)CIFAR100

與 CIFAR-10 相似,區別在於 CIFAR-100 擁有 100 種類別,每一個類別包含 600 張圖像(500 張訓練圖像和 100 張測試圖像),而後這 100 個類別又被劃分爲 20 個超類。所以,數據集裏的每張圖像自帶一個「精細」標籤 (所屬的類)和一個「粗略」標籤(所屬的超類)。

引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4)Caltech-UCSD Birds-200-2011

包含 200 種鳥類(主要爲北美洲鳥類)照片的圖像數據集,可用於圖像識別工做。分類數量:200;圖片數量: 11,788;平均每張圖片含有的標註數量:15 個局部位置,312 個二進制屬性,1 個邊框框。

引文:http://vis-www.cs.umass.edu/bcnn/

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5)Caltech 101

包含 101 種物品類別的圖像數據集,平均每一個類別擁有 40—800 張圖像,其中很大一部分類別的圖像數量固爲 50 張左右。每張圖像的大小約爲 300 x 200 像素。本數據集也能夠用於目標檢測定位。

引文:http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6)Oxford-IIIT Pet

包含 37 種寵物類別的圖像數據集,每一個類別約有 200 張圖像。這些圖像在比例、姿式以及光照方面有着豐富的 變化。本數據集也能夠用於目標檢測定位。

引文:http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7)Oxford 102 Flowers

包含 102 種花類的圖像數據集(主要是一些英國常見的花類),每一個類別包含 40—258 張圖像。這些圖像在比 例、姿式以及光照方面有着豐富的變化。

引文:http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8)Food-101

包含 101 種食品類別的圖像數據集,共有 101,000 張圖像,平均每一個類別擁有 250 張測試圖像和 750 張訓練圖 像。訓練圖像未通過數據清洗。全部圖像都已經從新進行了尺寸縮放,最大邊長達到了 512 像素。

引文:https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9)Stanford cars

包含 196 種汽車類別的圖像數據集,共有 16,185 張圖像,分別爲 8,144 張訓練圖像和 8,041 張測試圖像,每一個 類別的圖像類型比例基本上都是五五開。本數據集的類別主要基於汽車的牌子、車型以及年份進行劃分。

引文:https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

天然語言處理領域

1)IMDb Large Movie Review Dataset

用於情感二元分類的數據集,其中包含 25,000 條用於訓練的電影評論和 25,000 條用於測試的電影評論,這些電 影評論的特色是兩極分化特別明顯。另外數據集裏也包含未標記的數據可供使用。

引文:http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下載地址:https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2)Wikitext-103

超過 1 億個語句的數據合集,所有從維基百科的 Good 與 Featured 文章中提煉出來。普遍用於語言建模,當中 包括 fastai 庫和 ULMFiT 算法中常常用到的預訓練模型。

引文:https://arxiv.org/abs/1609.07843

下載地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3)Wikitext-2

Wikitext-103 的子集,主要用於測試小型數據集的語言模型訓練效果。

引文:https://arxiv.org/abs/1609.07843

下載地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4)WMT 2015 French/English parallel texts

用於訓練翻譯模型的法語/英語平行文本,擁有超過 2000 萬句法語與英語句子。本數據集由 Chris CallisonBurch 建立,他抓取了上百萬個網頁,而後經過一組簡單的啓發式算法將法語網址轉換爲英文網址,並默認這些 文檔之間互爲譯文。

引文:https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下載地址:https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5)AG News

496,835 條來自 AG 新聞語料庫 4 大類別超過 2000 個新聞源的新聞文章,數據集僅僅援用了標題和描述字段。 每一個類別分別擁有 30,000 個訓練樣本及 1900 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6)Amazon reviews - Full

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論,數據集主要來源於斯坦福網絡分析項 目(SNAP)。數據集的每一個類別分別包含 600,000 個訓練樣本和 130,000 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7)Amazon reviews - Polarity

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論,數據集主要來源於斯坦福網絡分析項 目(SNAP)。該子集的每一個情緒極性數據集分別包含 1,800,000 個訓練樣本和 200,000 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8)DBPedia ontology

來自 DBpedia 2014 的 14 個不重疊的分類的 40,000 個訓練樣本和 5,000 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9)Sogou news

2,909,551 篇來自 SogouCA 和 SogouCS 新聞語料庫 5 個類別的新聞文章。每一個類別分別包含 90,000 個訓練樣 本和 12,000 個測試樣本。這些漢字都已經轉換成拼音。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10)Yahoo! Answers

來自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 數據集的 10 個主要分類數據。每一個類 別分別包含 140,000 個訓練樣本和 5,000 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz

11)Yelp reviews - Full

來自 2015 年 Yelp Dataset Challenge 數據集的 1,569,264 個樣本。每一個評級分別包含 130,000 個訓練樣本和 10,000 個 測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz

12)Yelp reviews - Polarity

來自 2015 年 Yelp Dataset Challenge 數據集的 1,569,264 個樣本。該子集中的不一樣極性分別包含 280,000 個 訓練樣本和 19,000 個測試樣本。

引文:https://arxiv.org/abs/1509.01626

下載地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz

目標檢測定位

1)Camvid: Motion-based Segmentation and Recognition Dataset

700 張包含像素級別語義分割的圖像分割數據集,每張圖像都通過第二我的的檢查和確認來確保數據的準確性。

引文:https://pdfs.semanticscholar.org/08f6/24f7ee5c3b05b1b604357fb1532241e208db.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz

2)PASCAL Visual Object Classes (VOC)

用於類識別的標準圖像數據集——這裏同時提供了 2007 與 2012 版本。2012 年的版本擁有 20 個類別。訓練數 據的 11,530 張圖像中包含了 27,450 個 ROI 註釋對象和 6,929 個目標分割數據。

引文:http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf

下載地址:https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz

COCO 數據集

目前最經常使用於圖像檢測定位的數據集應該要屬 COCO 數據集(全稱爲 Common Objects in Context)。本文提 供 2017 版 COCO 數據集的全部文件,另外附帶由 fast.ai 建立的子集數據集。咱們能夠從 COCO 數據集下載頁 面(http://cocodataset.org/#download)獲取每一個 COCO 數據集的詳情。fast.ai 建立的子集數據集包含五個 選定類別的全部圖像,這五個選定類別分別爲:椅子、沙發、電視遙控、書籍和花瓶。

fast.ai 建立的子集數據集:https://s3.amazonaws.com/fast-ai-coco/coco_sample.tgz

訓練圖像數據集:https://s3.amazonaws.com/fast-ai-coco/train2017.zip

驗證圖像數據集:https://s3.amazonaws.com/fast-ai-coco/val2017.zip

測試圖像數據集:https://s3.amazonaws.com/fast-ai-coco/test2017.zip

未經標註的圖像數據集:https://s3.amazonaws.com/fast-ai-coco/unlabeled2017.zip

測試圖像數據集詳情:https://s3.amazonaws.com/fast-ai-coco/image_info_test2017.zip

未經標註的圖像數據集詳情:https://s3.amazonaws.com/fast-ai-coco/image_info_unlabeled2017.zip

訓練/驗證註釋集:https://s3.amazonaws.com/fast-ai-coco/annotations_trainval2017.zip

主體訓練/驗證註釋集:https://s3.amazonaws.com/fast-ai-coco/stuff_annotations_trainval2017.zip

全景訓練/驗證註釋集:https://s3.amazonaws.com/fast-ai-coco/panoptic_annotations_trainval2017.zip

數據集收集者:黃善清(僅供學習使用)

相關文章
相關標籤/搜索