【轉】大數據哪裏來

轉自:http://www.douban.com/note/309472506/架構

海量數據(又稱大數據)已經成爲各大互聯網企業面臨的最大問題,如何處理海量數據,提供更好的解決方案,是目前至關熱門的一個話題。相似MapReduce、 Hadoop等架構的廣泛推廣,你們都在構建本身的大數據處理,大數據分析平臺。

相應之下,目前對於海量數據處理人才的需求也在不斷增多,此類人才可謂煊赫一時!愈來愈多的開發者把目光轉移到海量數據的處理上。可是不是全部人都能真正接觸到,或者有機會去處理海量數據的,因此就須要一些公開的海量數據集來研究。

有人就問到徐老師:如何獲取海量數據集?此問題獲得了不少人的關注。具體能夠看看回答,數據集的種類多種多樣,有化學分析,基因遺傳等等,從中你確定能獲得本身想要個數據集。


首先說說幾個收集數據集的網站:
(由於博文不容許發佈外鏈,只好刪除連接!自行去谷歌搜索下載地址)
一、Public Data Sets on Amazon Web Services (AWS)
Amazon從2008年開始就爲開發者提供幾十TB的開發數據。

二、Yahoo! Webscope

三、Konect is a collection of network datasets

四、Stanford Large Network Dataset Collection

再就是說說幾個跟互聯網有關的數據集:
一、Dataset for "Statistics and Social Network of YouTube Videos"

二、1998 World Cup Web Site Access Logs
這個是1998年世界盃期間的數據集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。

三、Page view statistics for Wikimedia projects

四、AOL Search Query Logs - RP

五、livedoor gourmet


海量圖像數據集:
一、ImageNet
包含1400萬的圖像。

二、Tiny Images Dataset
包含8000萬的32x32圖像。

三、 MirFlickr1M
Flickr中的100萬的圖像集。

四、 CoPhIR
Flickr中的1億600萬的圖像

五、SBU captioned photo dataset
Flickr中的100萬的圖像集。

六、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
包含2億圖像

七、NUS-WIDE
Flickr中的27萬的圖像集。

八、SUN dataset
包含13萬的圖像

九、MSRA-MM
包含100萬的圖像,23000視頻

十、TRECVIDide


國內大型數據集oop

一、上海市政府數據服務網 : 十大領域、總容量達上千GB的交通大數據,包括城市道路交通指數、地鐵運行數據、一卡通乘客刷卡數據、浦東公交車實時數據、強生出租車行車數據、空氣質量情況、氣象數據、道路事故數據。相關媒體報道:http://www.thepaper.cn/newsDetail_forward_1365388大數據

http://www.datashanghai.gov.cn/home!toHomePage.action網站

相關文章
相關標籤/搜索