數據集彙總

時間 2019-12-12

標籤數據彙總简体版

原文原文鏈接

原文地址：http://www.cnblogs.com/5211314jackrose/p/8413402.htmlhtml

1、免費大數據存儲庫的網站

一、深度學習數據集收集網站python

http://deeplearning.net/datasets/**git

收集大量的各深度學習相關的數據集，但並非全部開源的數據集都能在上面找到相關信息。github

二、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html算法

包含8000萬的32x32圖像，CIFAR-10和CIFAR-100即是從中挑選的。數據庫

三、CoPhIR
http://cophir.isti.cnr.it/whatis.htmlexpress

雅虎發佈的超大Flickr數據集，包含1億多張圖片。服務器

四、MirFlickr1M
http://press.liacs.nl/mirflickr/網絡

Flickr數據集中挑選出的100萬圖像集。app

五、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一個子集，包含100萬的圖像集。

六、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27萬的圖像集。

七、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/

機器標註的一個超大規模數據集，包含2億圖像。

八、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/

包含13萬的圖像的數據集。

九、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/

包含100萬的圖像，23000視頻；微軟亞洲研究院出品，質量應該有保障。

十、其它：

Wikipedia:Database ：向感興趣的用戶提供全部可用的內容的免費副本。能夠獲得多種語言的數據。內容連同圖片能夠下載。

Common crawl：全部人均可以訪問的開放的網絡。這個數據保存在亞馬遜s3bucket中，請求者可能花費一些錢來訪問它。

EDRM File Formats Data Set：由381個文件夾200種文件格式組成。

Apache Mahout：有許多免費的和付費的語料庫語料。

EDRM Enron Email Data Set v2：由安然公司郵件信息和附件組成，存在兩組可下載的壓縮文件中：XML和PST。

ClueWeb09：用來支持信息檢索和相關人類語言技術研究的資料庫。它包含了從2009年1月到2月間收集的大約10億個網頁，包含10種語言。資料庫被若干TREC會議的追蹤檢測使用。

DMOZ：最大的、最全面的人工編輯的開放式網站目錄。它收集了不一樣類型的網站連接。Dmoz是互聯網搜索引擎的一個主要來源。

theinfo.org：這是一個大數據集網站，在這裏學者、設計師、藝術家等能夠交流技巧和竅門，一塊兒開發和共享工具，並開始整合他們獨有的項目。

Project Gutenberg：提供超過36000免費電子書的下載，能夠下載到我的電腦、Kindle, Android, iOS or 或其餘便攜式設備。

Million song data set：與tracks 和藝術家有關的數據。

AWS (Amazon Web Services) Public Data Sets：提供了能夠無縫融入AWS（亞馬遜網絡服務）雲應用的公共數據集的集中存儲庫。

BigML big list of public data sources。

Bioassay data：研究文章「生物測定數據的虛擬篩選」，由Amanda Schierz編寫，有21個生物測定數據集（活性/非生理活性成分），能夠下載。

Bitly 1.usa.gov data：匿名點擊政府連接。

Canada Open Data：有許多政府和地理空間的數據集的試點項目。

Canada Open Data：許多政府和地理空間數據集的試點項目。

Causality Workbench：數據存儲庫。

Corral Big Data repository：在德克薩斯高級計算中心，提供以數據爲中心的技術。

Data Source Handbook:公開數據指南。

Datacatalogs.org：來自美國、歐盟、加拿大、CKAN以及其餘的公開政府數據。

Data.gov.uk：英國的公共可用數據（London datastore也是）。

Data.gov/Education：對於教育數據資源的主要指南，包括高價值的數據集、數據可視化、課堂資源、建立自公開數據的應用程序以及其餘。

DataMarket：可視化的世界經濟、社會、天然和工業，擁有來自聯合國，世界銀行，歐盟統計局和其餘重要數據提供者的一億時間序列。

Datamob：能夠很好利用的公開數據。

DataSF.org：可向City & County of San Francisco, CA.購買的數據集信息交流中心。

DataFerrett：一個用來訪問和使用The Data Web的數據挖掘工具，許多網上美國政務數據集的集合。

EconData：大量經濟學的時間序列，由許多美國政府機構編制。

Enron Email Dataset：來自大約150個用戶的數據，這些用戶大多數是安然公司高級管理人員。

Europeana Data：包含2000萬文字，圖片，視頻開放的元數據，以及由歐洲數位圖書館收集的聲音，對於歐洲文化遺產內容值得信賴的、全面的資源。

FEDSTATS：一個美國統計資料的綜合資源。

FIMI repository for frequent itemset mining：工具和數據集。

Financial Data Finder at OSU：大型財務數據集目錄。

GDELT：關於事件、位置和音調的全球數據，被英國衛報形容爲「生命、宇宙和一切的大數據歷史」。

GEO (GEO Gene Expression Omnibus)：一個支持MIAME兼容數據提交的基因表達/分子丰度信息庫，一個精心策劃的網上資源，用於基因表達數據的瀏覽，查詢和檢索。

GeoDa Center：地理和空間數據。

Google ngrams datasets：來自數Google掃描的百萬書籍文本。

Grain Market Research：財務數據，包括股票、期貨等。

Hilary Mason research-quality Big Data sets：收集許多文本和圖片數據集。

HitCompanies Datasets：HitCompanies隨機取樣的1萬個英國公司全面的數據，採用人工智能/機器學習進行自動更新。

ICWSM-2009 dataset：包含2008年8月1日到10月1日之間的4400萬個博文。

Infochimps：一個數據開放的目錄和集合，容許分享、出售和下載關於任何內容的數據。

Investor Links：包含財物數據。

KDD Cup center：數據、工做表和結果。

Kevin Chai list of datasets：文本、SNA和其餘領域。

KONECT：科布倫茨網絡收集，擁有大量各類類型的網絡數據集，以便在網絡挖掘領域進行研究。

Linking Open Data 工程：免費向全部人提供數據。

MIT Cancer Genomics gene expression datasets and publications：來自麻省理工Whitehead Center用於基因組研究。

ML Data：歐盟Pascal2網絡數據儲存庫。

NASDAQ Data Store：提供市場數據。

National Government Statistical Web Sites：來自大約70個網站的數據、報告、統計年鑑、新聞和其餘，包括非洲、歐洲、亞洲和拉丁美洲的國家。

National Space Science Data Center (NSSDC)：美國國家航空航天局的數據集，包含行星探索、空間和太陽物理學、生命科學、天體物理學以及其餘方面。

Open Data Census：評估世界各地的開放數據的狀態。

OpenData from Socrata：容許訪問超過10000個數據集，包括商業、教育、政府和娛樂。

Open Source Sports：大量運動數據庫，包括棒球、足球、籃球和曲棍球。

Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools：基因組有關的出版物數據庫。

Quandl：a collaboratively curated portal to millions of financial and economic time-series datasets。

qunb：一個用來發現和可視化的數據資料的平臺。

Robert Schiller data：住房建築、股票市場和更多的來自於他的書 Irrational Exuberance的數據。

SMD: Stanford Microarray Database：存儲來自微陣列實驗的原始的和標準的數據。

Jerry Smith dataset collection：財經、政府、機器學習、科學和其餘數據。

SourceForge.net Research Data：包含大約10萬個項目和超過100萬註冊用戶的活動的歷史和現狀的統計數據的項目管理網站。

StatLib：卡內基梅隆大學數據檔案。

STATOO Datasets part 1和 STATOO Datasets part 2。

Time Series Data Library。

Visual Analytics Benchmark Repository。

UCI KDD Database Repository ：適用於機器學習和知識發現研究的大數據集。

UCI Machine Learning Repository。

UCR Time Series Data Archive：提供數據集、論文、連接和代碼。

United States Census Bureau。

Wikiposit：一個（虛擬的）融合了來自許多不一樣網站的數據（大多數是金融的），容許用戶合併來自不一樣來源的數據。

Wolfram Alpha disease and patient level dat。

Yahoo Sandbox datasets：語言、圖表、評級、廣告與營銷、競賽。

Yelp Academic Dataset：30家大學的250個最接近商業的全部數據和評論，爲學生和學者來探討和研究。

2、深度學習視覺領域經常使用數據集

1.MNIST - 手寫數字數據庫

介紹：有60000個訓練樣本集和10000個測試樣本集，每一個樣本圖像的寬高爲28*28。此數據集以二進制存儲，不能直接以圖像格式查看，但很容易用圖像格式轉換工具轉換爲圖片。

最先模型：深度卷積神經網絡LeNet。

數據集大小：約12MB。

下載地址：http://yann.lecun.com/exdb/mnist/index.html。

2.Imagenet - 圖像分類、定位、檢測任務數據集

介紹：

Imagenet數據集有1400多萬幅圖片，涵蓋2萬多個類別；其中有超過百萬的圖片有明確的類別標註和圖像中物體位置的標註，具體信息以下：
1）Total number of non-empty synsets: 21841
2）Total number of images: 14,197,122
3）Number of images with bounding box annotations: 1,034,908
4）Number of synsets with SIFT features: 1000
5）Number of images with SIFT features: 1.2 million

經典模型：Hinton：ImageNet Classification with Deep Convolutional Neural Networks. 2012（AlexNet）。

比賽：ImageNet國際計算機視覺挑戰賽ILSVRC（2017年後再也不舉辦）。

數據集大小：約1TB（ILSVRC2016）。

下載地址：http://www.image-net.org/about-stats。

3.COCO(Common Objects in Context) - 圖像識別、分割和圖像語義數據集

介紹：

COCO數據集由微軟贊助，其對於圖像的標註信息不只有類別、位置信息，還有對圖像的語義文本描述。
1）Object segmentation
2）Recognition in Context
3）Multiple objects per image
4）More than 300,000 images
5）More than 2 Million instances
6）80 object categories
7）5 captions per image
8）Keypoints on 100,000 people

經典模型：圖說生成模型Show and Tell。

數據集大小：約40GB。

下載地址：http://mscoco.org/。

4.PASCAL VOC - 視覺對象的分類識別和檢測的基準測試集

介紹：PASCAL VOC圖片集包括20個目錄：人類；動物（鳥、貓、牛、狗、馬、羊）；交通工具（飛機、自行車、船、公共汽車、小轎車、摩托車、火車）；室內（瓶子、椅子、餐桌、盆栽植物、沙發、電視）。其圖像質量好，標註完備，很是適合用來測試算法性能。

比賽：PASCAL VOC挑戰賽，提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統（2012年後再也不舉辦）。

數據集大小：約2GB。

下載地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html。

5.CIFAR - 圖像分類中小規模數據集

介紹：

CIFAR-10：包含10個類別，50,000個訓練圖像，彩色圖像大小：32x32，10,000個測試圖像。
CIFAR-100：與CIFAR-10相似，包含100個類，每類有600張圖片，其中500張用於訓練，100張用於測試；這100個類分組成20個超類。
圖像類別均有明確標註。

數據集大小：約170MB。

下載地址：http://www.cs.toronto.edu/~kriz/cifar.html。

6. Open Images - 標註圖片數據集

從系統自動爲圖片生成圖說，再到能對分享的圖片進行天然語言回覆的APP，這些進步大多數都要歸功於公共可用的圖像數據集，好比用於監督學習的 ImageNet 和COCO，以及用於非監督學習的YFCC100M。

介紹：包含了900萬張圖像URL的數據集，圖像全都是標籤數據，平均每一張圖像約8個標籤，標籤種類超過6000種，比ImageNet（1000類）包含更真實生活的實體存在。由谷歌、CMU和康奈爾大學聯合研究。

經典模型：Inception v3 模型。

數據集大小：約1.5GB（不包括圖片）。

下載地址：https://github.com/openimages/dataset。

7.Youtube-8M - 視頻數據集

介紹：谷歌開源。視頻來自Youtube，共計8百萬個視頻，總時長50萬小時，4800類。爲了保證標籤視頻數據庫的穩定性和質量，谷歌只採用瀏覽量超過1000的公共視頻資源。爲了讓受計算機資源所限的研究者和學生也能夠用上這一數據庫，谷歌對視頻進行了預處理，並提取了幀級別的特徵，提取的特徵被壓縮到能夠放到一個硬盤中（小於1.5T）。

數據集大小：約1.5TB。

下載地址：https://research.google.com/youtube8m/。

3、數據獲取

1.公開的數據庫

－國家數據－ http://data.stats.gov.cn/index.htm

數據來源於中國國家統計局，包含了我國經濟民生等多個方面的數據，而且在月度、季度、年度都有覆蓋，較爲全面和權威，對於社會科學的研究不要太有幫助。網站還有專門的可視化讀物。

－ CEIC － http://www.ceicdata.com/zh-hans

最完整的一套超過128個國家的經濟數據，可以精確查找GDP, CPI, 進口，出口，外資直接投資，零售，銷售，以及國際利率等深度數據。其中的「中國經濟數據庫」收編了300,000多條時間序列數據，數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

－ wind（萬得）－ http://www.wind.com.cn/

萬得被譽爲中國的Bloomberg，在金融業有着全面的數據覆蓋，金融數據的類目更新很是快，聽說很受國內的商業分析者和投資人的親睞。

－搜數網－ http://www.soshoo.com/

已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據，聚集了中國資訊行自92年以來收集的全部統計和調查數據，並提供多樣化的搜索功能。

－中國統計信息網－ http://www.tjcn.org/

國家統計局的官方網站，聚集了海量的全國各級政府各年度的國民經濟和社會發展統計信息，創建了以統計公報爲主，統計年鑑、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。

－亞馬遜aws － http://aws.amazon.com/cn/datasets/?nc1=h_ls

來自亞馬遜的跨科學雲數據平臺，包含化學、生物、經濟等多個領域的數據集。

－ figshare － https://figshare.com/

研究成果共享平臺，在這裏你會發現來自世界的大牛們的研究成果分享，同時get其中的研究數據，內容頗有啓發性，網站頗具設計感。

－ github － https://github.com/caesar0301/awesome-public-datasets

Github上整理了一個很是全面的數據獲取渠道，包含各個細分領域的數據庫資源，天然科學和社會科學的覆蓋都很全面。

2.數據交易平臺

－優易數據－ http://www.youedata.com/

由國家信息中心發起，擁有國家級信息資源的數據平臺，國內領先的數據交易平臺。平臺有B2B、B2C兩種交易模式，包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。

－數據堂－ http://www.datatang.com/

專一於互聯網綜合數據交易，提供數據交易、處理和數據API服務，包含語音識別、醫療健康、交通地理、電子商務、社交網絡、圖像識別等方面的數據。

3.網絡指數

－百度指數－ http://index.baidu.com/

指數查詢平臺，能夠根據指數的變化查看某個主題在各個時間段受關注的狀況，進行趨勢分析、輿情預測有很好的指導做用。除了關注趨勢以外，還有需求分析、人羣畫像等精準分析的工具，對於市場調研來講具備很好的參考意義。一樣的另外兩個搜索引擎搜狗、360也有相似的產品，均可以做爲參考。

－阿里指數－ https://alizs.taobao.com/

國內權威的商品交易分析工具，能夠按地域、按行業查看商品搜索和交易數據，基於淘寶、天貓和1688平臺的交易數據基本可以看出國內商品交易的概況，對於趨勢分析、行業觀察意義不小。

－艾瑞諮詢－ http://www.iresearch.com.cn/

艾瑞做爲老牌的互聯網研究機構，在數據的沉澱和數據分析上都有得天獨厚的優點，在互聯網的趨勢和行業發展數據分析上面比較權威，艾瑞的互聯網分析報告能夠說是互聯網研究的必讀刊物。

－友盟指數－ http://www.umeng.com/

友盟在移動互聯網應用數據統計和分析具備較爲全面的統計和分析，對於研究移動端產品、作市場調研、用戶行爲分析頗有幫助。除了友盟指數，友盟的互聯網報告一樣是瞭解互聯網趨勢的優秀讀物。

－愛奇藝指數－ http://index.iqiyi.com/

愛奇藝指數是專門針對視頻的播放行爲、趨勢的分析平臺，對於互聯網視頻的播放有着全面的統計和分析，涉及到播放趨勢、播放設備、用戶畫像、地域分佈、等多個方面。因爲愛奇藝龐大的用戶基數，該指數基本能夠說明實際狀況。

－貓眼專業版－ http://piaofang.maoyan.com/

電影票房統計分析平臺，貓眼專業版有實時的票房統計，影片的排盤狀況、上座率和影院數據，對於當前電影的分析是必不可少的。

4.網絡採集器

－火車採集器－ http://www.locoy.com/

一款專業的互聯網數據抓取、處理、分析，挖掘軟件，能夠靈活迅速地抓取網頁上散亂分佈的數據信息，並經過一系列的分析處理，準確挖掘出所需數據，最經常使用的就是採集某些網站的文字、圖片、數據等在線資源。接口比較齊全，支持的擴展比較好用，懂代碼的話，可使用PHP或C#開發任意功能的擴展。

－八爪魚－ http://www.bazhuayu.com/

簡單實用的採集器，功能齊全，操做簡單，不用寫規則。特有的雲採集，關機也能夠在雲服務器上運行採集任務。

5.網絡爬蟲

數據收集時，爬蟲高度的自由性、自主性都使其成爲數據挖掘的必備技能，固然精通python等語言是必要前提。

－利用爬蟲爬取網絡圖片－

須要某個網站上的圖片時，單個下載太麻煩，能夠利用爬蟲快速地進行抓取，並能夠根據標籤、特徵、顏色等信息進行分類儲存。

－利用爬蟲爬取高質量資源－

蒐集高質量的網絡資源時，人工查找比較麻煩，利用爬蟲就能夠輕鬆解決。好比爬取知乎點贊最多的文章列表，爬取網易雲音樂評論最多的音樂，爬取豆瓣網高評分的電影或圖書，等等。

－利用爬蟲獲取輿情數據－

能夠批量爬取社交平臺的數據資源，能夠爬取網站的交易數據，爬取招聘網站的職位信息等，能夠用於個性化的分析研究。

6.小工具

－ Web Plot Digitizer － http://arohatgi.info/WebPlotDigitizer/app/

在查看期刊文獻時看到一張成型的圖表，但其自己數據有缺失而想得到這個圖表的相關數據，能夠用該工具直接上傳須要得到數據的圖表，而後就會得到數據反饋，對於一些不須要十分精確的分析研究足夠使用。

－ you-get － https://you-get.org/

該工具基於python 3開發，已經在github上面開源，支持64個網站，包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米，即便是名單上沒有的網站，當你輸入連接，程序也會猜想你想要下載什麼，而後幫你下載，好比下載優酷視頻或批量下載圖片。

固然you-get要在python3環境下進行安裝，用pip安裝好後，在終端輸入「you get＋你想下載資源的連接」就能夠下載資源了。

7.數據導航

－ 199IT大數據導航－ http://hao.199it.com/

－數據分析網導航－ http://www.afenxi.com/hao

－大數據人導航－ http://hao.bigdata.ren/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。