開放數據源,科研、論文,生物、網址、機器學習等。
你是否須要大量的數據來檢驗你的APP性能?最簡單的方法是從網上免費數據存儲庫下載數據樣本。但這種方法最大的缺點是數據不多有獨特的內容而且不必定能達到預期的結果。如下是70多家能夠得到免費大數據存儲庫的網站。
Wikipedia:Database :
向感興趣的用戶提供全部可用的內容的免費副本。能夠獲得多種語言的數據。內容連同圖片能夠下載。
Common crawl
創建並維護一個全部人均可以訪問的開放的網絡。這個數據保存在亞馬遜s3bucket中,請求者可能花費一些錢來訪問它。
Common crawl :
創建並維護一個開放的網絡,向全部人開放。
EDRM File Formats Data Set:
由381個文件夾200種文件格式組成。
Apache Mahout TLP
項目建立一個可擴展的機器學習算法。Mahout有許多免費的和付費的語料庫語料。
EDRM Enron Email Data Set v2
由安然公司郵件信息和附件組成,存在兩組可下載的壓縮文件中:XML和PST。
ClueWeb09
用來支持信息檢索和相關人類語言技術研究的資料庫。它包含了從2009年1月到2月間收集的大約10億個網頁,包含10種語言。資料庫被若干TREC會議的追蹤檢測使用。
DMOZ –
最大的、最全面的人工編輯的開放式網站目錄。它收集了不一樣類型的網站連接。Dmoz是互聯網搜索引擎的一個主要來源。
theinfo.org –
這是一個大數據集網站,在這裏學者、設計師、藝術家等能夠交流技巧和竅門,一塊兒開發和共享工具,並開始整合他們獨有的項目。
Project Gutenberg
提供超過36000免費電子書的下載,能夠下載到我的電腦、Kindle, Android, iOS or 或其餘便攜式設備。
Million song data set:
與tracks 和藝術家有關的數據
AWS (Amazon Web Services) Public Data Sets:
提供了能夠無縫融入AWS(亞馬遜網絡服務)雲應用的公共數據集的集中存儲庫。
BigML big list of public data sources.
Bioassay data:
研究文章「生物測定數據的虛擬篩選」,由Amanda Schierz編寫,有21個生物測定數據集(活性/非生理活性成分),能夠下載。
Bitly 1.usa.gov data:
匿名點擊政府連接
Canada Open Data:
有許多政府和地理空間的數據集的試點項目
Causality Workbench:
數據存儲庫
Corral Big Data repository:
在德克薩斯高級計算中心,提供以數據爲中心的技術。
Data Source Handbook:
公開數據指南
Datacatalogs.org:
來自美國、歐盟、加拿大、CKAN以及其餘的公開政府數據
Data.gov.uk:
英國的公共可用數據(London datastore也是)
Data.gov/Education:
對於教育數據資源的主要指南,包括高價值的數據集、數據可視化、課堂資源、建立自公開數據的應用程序以及其餘。
DataMarket:
可視化的世界經濟、社會、天然和工業,擁有來自聯合國,世界銀行,歐盟統計局和其餘重要數據提供者的一億時間序列。
Datamob:
能夠很好利用的公開數據
DataSF.org:
可向City & County of San Francisco, CA.購買的數據集信息交流中心
DataFerrett:
一個用來訪問和使用The Data Web的數據挖掘工具,許多網上美國政務數據集的集合。
EconData:
大量經濟學的時間序列,由許多美國政府機構編制。
Enron Email Dataset:
來自大約150個用戶的數據,這些用戶大多數是安然公司高級管理人員
Europeana Data:
包含2000萬文字,圖片,視頻開放的元數據,以及由歐洲數位圖書館收集的聲音,對於歐洲文化遺產內容值得信賴的、全面的資源。
Europeana Data:
FEDSTATS:一個美國統計資料的綜合資源以及更多
FIMI repository for frequent itemset mining:
工具和數據集
Financial Data Finder at OSU:
大型財務數據集目錄
GDELT:
關於事件、位置和音調的全球數據,被英國衛報形容爲「生命、宇宙和一切的大數據歷史」
GEO (GEO Gene Expression Omnibus):
一個支持MIAME兼容數據提交的基因表達/分子丰度信息庫,一個精心策劃的網上資源,用於基因表達數據的瀏覽,查詢和檢索。
GeoDa Center:
地理和空間數據
Google ngrams datasets:
來自數Google掃描的百萬書籍文本
Grain Market Research:
財務數據,包括股票、期貨等
Hilary Mason research-quality Big Data sets
收集許多文本和圖片數據集
HitCompanies Datasets:
HitCompanies隨機取樣的1萬個英國公司全面的數據,採用人工智能/機器學習進行自動更新。
ICWSM-2009 dataset:
包含2008年8月1日到10月1日之間的4400萬個博文
Infochimps:
一個數據開放的目錄和集合,容許分享、出售和下載關於任何內容的數據。
Investor Links:
包含財物數據
KDD Cup center:
數據、工做表和結果
Kevin Chai list of datasets:
文本、SNA和其餘領域
KONECT:
科布倫茨網絡收集,擁有大量各類類型的網絡數據集,以便在網絡挖掘領域進行研究。
Linking Open Data 工程,免費向全部人提供數據
MIT Cancer Genomics gene expression datasets and publications:
來自麻省理工Whitehead Center用於基因組研究
ML Data:
歐盟Pascal2網絡數據儲存庫
NASDAQ Data Store:提供市場數據
National Government Statistical Web Sites:
來自大約70個網站的數據、報告、統計年鑑、新聞和其餘,包括非洲、歐洲、亞洲和拉丁美洲的國家。
National Space Science Data Center (NSSDC):
美國國家航空航天局的數據集,包含行星探索、空間和太陽物理學、生命科學、天體物理學以及其餘方面。
Open Data Census:
評估世界各地的開放數據的狀態。
OpenData from Socrata:
容許訪問超過10000個數據集,包括商業、教育、政府和娛樂
Open Source Sports:
大量運動數據庫,包括棒球、足球、籃球和曲棍球
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:
基因組有關的出版物數據庫
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一個用來發現和可視化的數據資料的平臺
Robert Schiller data:住房建築、股票市場和更多的來自於他的書 Irrational Exuberance的數據
SMD: Stanford Microarray Database,存儲來自微陣列實驗的原始的和標準的數據
Jerry Smith dataset collection:財經、政府、機器學習、科學和其餘數據
SourceForge.net Research Data:
包含大約10萬個項目和超過100萬註冊用戶的活動的歷史和現狀的統計數據的項目管理網站。
StatLib,
卡內基梅隆大學數據檔案
STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.
UCI KDD Database Repository:
適用於機器學習和知識發現研究的大數據集
UCI Machine Learning Repository.
UCR Time Series Data Archive:
提供數據集、論文、連接和代碼
United States Census Bureau.
Wikiposit:
一個(虛擬的)融合了來自許多不一樣網站的數據(大多數是金融的),容許用戶合併來自不一樣來源的數據
Wolfram Alpha disease and patient level dat.
Yahoo Sandbox datasets:
語言、圖表、評級、廣告與營銷、競賽
Yelp Academic Dataset:
30家大學的250個最接近商業的全部數據和評論,爲學生和學者來探討和研究
199IT編譯自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/
web