轉:UCI數據集和源代碼&數據挖掘的數據集資源

《UCI數據集和源代碼》html

UCI數據集是一個經常使用的標準測試數據集,下載地址在java

http://www.ics.uci.edu/~mlearn/MLRepository.htmlpython

個人主頁上也有整理好的一些UCI數據集(arff格式):mysql

http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.ziplinux

在看別人的論文時,別人使用的數據集會給出數據集的出處或下載地址(除非是很機密的數據,例如與國家安全有關)。若是你看的論文沒有給出數據集的出處,請當即中止看這篇論文,而且中止看刊發這篇論文的期刊上的全部文章。由於能夠判定這些文章質量不好。ios

關於源代碼,網上有不少公開源碼的算法包,例如最爲著名的Weka,MLC++等。Weka還在不斷的更新其算法,下載地址:web

http://www.cs.waikato.ac.nz/ml/weka/算法

不少的機器學習的經典算法都在裏面。並且公佈源程序,易於修改。sql

若是做者沒有公佈源程序,能夠到做者主頁找找,也能夠寫信給做者要,通常論文開頭都會有做者的email地址。寫信的時候要注意要頗有禮貌,不然做者,尤爲是著名學者,頗有可能不會理睬。若是算法簡單,能夠本身實現。數據庫

關於論文的下載,若是可以訪問電子圖書館是最好的,不少學校都買了IEEE, Elsevier, Kluwer等,上面的期刊都不錯。有一些很好的期刊是免費的,像JAIR和JMLR,分別在:

http://www.cs.washington.edu/research/jair/home.html

http://www.jmlr.org/

若是能訪問的免費期刊太少,能夠到CiteSeer上搜索(http://citeseer.ist.psu.edu/ ),上面蒐集了不少免費論文(可是要注意,論文的質量良莠不齊),或者用Googlewww.google.com )搜索。

再囑咐兩點,要作研究,首先要打好基礎,例如數學基礎和程序設計能力,要學會熟練使用google等搜索引擎,還有必定要看高質量的論文。

《數據挖掘的數據集資源》

你們作數據挖掘研究時,經常爲找不到合適的數據而發愁。在KDNuggets上有Datasets欄目,提供一些數據集,網址爲:http://www.kdnuggets.com/datasets/

還有另一個很好的資源網址爲:http://kdd.ics.uci.edu/ ,裏面包含的數據資源以下(按應用領域劃分):

Direct Marketing

  KDD CUP 1998 Data

GIS

  Forest CoverType

Indexing

  Corel Image Features

  Pseudo Periodic Synthetic Time Series

Intrusion Detection

  KDD CUP 1999 Data

Process Control

  Synthetic Control Chart Time Series

Recommendation Systems

  Entree Chicago Recommendation Data

Robots

  Pioneer-1 Mobile Robot Data

  Robot Execution Failures

Sign Language Recognition

  Australian Sign Language Data

  High-quality Australian Sign Language Data

Text Categorization

  20 Newsgroups Data

  Reuters-21578 Text Categorization Collection

  NSF Research Awards Abstracts 199 0-2003

World Wide Web

  Microsoft Anonymous Web Data

  MSNBC Anonymous Web Data

  Syskill Webert Web Data

 轉:http://blogger.org.cn/blog/more.asp?name=DMman&id=24043

一、氣候監測數據集 http://cdiac.ornl.gov/ftp/ndp026b

二、幾個實用的測試數據集下載的網站

http://www.cs.toronto.edu/~roweis/data.html

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的網址能夠找到reuters數據集http://www.research.att.com/~lewis/reuters21578.html

如下網址上有各類數據集:

http://kdd.ics.uci.edu/summary.data.type.html

進行文本分類,還有一個數據集是能夠用的,即rainbow的數據集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

三、找了不少測試數據集,寫論文的同志們確定須要的,至少能用來檢驗算法的效果

可能有一些不能訪問,可是總有能訪問的吧:

UCI收集的機器學習數據集

ftp://pami.sjtu.edu.cn/

http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib

http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm

http://lib.stat.cmu.edu/

樣本數據庫

http://kdd.ics.uci.edu/

http://www.ics.uci.edu/~mlearn/MLRepository.html

關於基金的數據挖掘的網站

http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters數據集

http://www.research.att.com/~lewis/reuters21578.html

各類數據集:

http://kdd.ics.uci.edu/summary.data.type.html

http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html

http://lib.stat.cmu.edu/datasets/

http://dctc.sjtu.edu.cn/adaptive/datasets/

http://fimi.cs.helsinki.fi/data/

http://www.almaden.ibm.com/software/quest/Resources/index.shtml

http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

進行文本分類&WEB

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html

http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog

http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-caching.com/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html

時間序列數據的網址

http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的測試數據

http://www.almaden.ibm.com/cs/quest/syndata.html

數據生成器的連接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html

http://www.almaden.ibm.com/cs/quest/syndata.html

關聯:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

1。A jarfile containing 37 classification problems, originally obtained from the UCI repository

http://prdownloads.sourceforge.net/weka/datasets-UCI.jar

2。A jarfile containing 37 regression problems, obtained from various sources

http://prdownloads.sourceforge.net/weka/datasets-numeric.jar

3。A jarfile containing 30 regression datasets collected by Luis Torgo

http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融數據:

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

 

另外一我的提供的

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的網址能夠找到reuters數據集

http://www.research.att.com/~lewis/reuters21578.html

如下網址上有各類數據集:

http://kdd.ics.uci.edu/summary.data.type.html

進行文本分類,還有一個數據集是能夠用的,即rainbow的數據集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

Download the Financial Data (~17.5M zipped file, ~67M unzipped data)

Download the Medical Data (~2M zipped file, ~6M unzipped data)

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相關連接數據集(借花獻佛了):

http://www.kdnuggets.com/datasets/index.html

你也能夠到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017

察看kdnuggets 數據集資源的詳細介紹。

數據挖掘相關比賽以及數據集

2005 University of California data mining contest , predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.

ILP 2005 Challenge , on the prediction of functional classes of genes.  KDD Cup 2005 , on classifying internet user search queries, deadline July 8.  Data Mining Cup 2005 (Chemnitz, Germany) , for students; topic: How data mining can ascertain the risk of loss of payments and reduce this risk.  KDD Cup 2004 , focuses on data-mining for a several performance criteria using datasets from bioinformatics and quantum physics.  InfoVis 2004 Contest , The History of InfoVis.  DATA MINING CUP 2004 (Chemnitz, Germany) , for students.  InfoVis 2003 Contest: Visualization and Pair Wise Comparison of Trees , results announced Sep 5, 2003.  KDD Cup 2003 , focuses on problems motivated by network mining and the analysis of usage logs.  DATA MINING CUP 2003 (Chemnitz, Germany) . The task is to identify spam emails before they reach the user′s mailbox.  KDD Cup 2002 , focus on data mining in molecular biology.  Student Data Mining Cup (2002) , Chemnitz University and Prudential Systems.
 
下載 

k-means聚類(使用數據集:iris)

12-29
使用java語言在數據集iris上實現k-means聚類
下載 

UCI數據集(數據挖掘)

11-14
很全的uci數據集,格式爲arff,但願有用

從0到1學好區塊鏈開發,一年編程經驗學完月薪可達40K+

當即申請試學,成爲時代顛覆者

下載 

常見聚類數據集人工數據和UCI數據都有

01-26
這裏面是機器學習裏面聚類所需的數據集,分爲人工的二維數據集,如月牙形,雙螺旋型等,和UCI真實數據集,是我搜集很久才弄出來的,有一些二維數據集是本身生成的,提供給你們作算法實驗。
下載 

聚類分析經常使用數據集

03-26
聚類分析經常使用的人工數據集,包括:UCI:wine、Iris、yeast,還有4k2_far、leuk72_3k等數據集。它們在聚類分析、數據挖掘、機器學習、模式識別領域常常用到。
下載 

聚類分析、機器學習及數據挖掘中經常使用數據集

09-02
在聚類分析、機器學習、數據挖掘中經常使用到的數據集,包括:UCI的數據集wine,yeast,iris等,還有USPS數據集,4k2_far,leuk72_3k數據集等。

博主推薦

 換一批
wonder4
wonder4

關注 639篇文章

Eastmount
Eastmount

關注 310篇文章

fengbingchun
fengbingchun

關注 729篇文章

uci聚類測試數據集

下載

09-15

該文件有六百條數據,每100條是一類。可用於聚類的測試。... *詳細緣由: 取  消 提  交 uci聚類測試數據集 3積分 當即下載 ...

UCI數據集

下載

09-19

是arff 格式的數據,應該很是有用,能夠測試一些數據挖掘分類算法的準確度,對學習...常見聚類數據集人工數據和UCI數據都有 97 2018-01-26 chenguangchun1993 VIP...

下載 

用機器學習算法對UCI上的三個數據集作預測

02-07
1. 在UC Irvine Machine Learning數據集上選擇三個數據 2. 編寫一種機器學習算法預測結果,並使用十次、十折交叉驗證 3. 撰寫報告,包含對數據集、算法、結果的描述以及源代碼
下載 

arff數據集全集

08-25
目錄列表: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.OR
下載 

聚類測試數據

08-15
two_cluster、three_cluster、five_cluster爲不一樣簇數的點集,適用於Kmeans聚類 spiral、Twomoons、ThreeCircles分別爲螺旋分佈、月牙分佈、
下載 

數據挖掘聚類分析技術實驗經常使用真實數據集

03-19
所有爲txt文檔數據,數據挖掘聚類分析技術,算法實驗過程當中,常常用到的經典UCI、UPSP等真實數據集,經常使用於算法的實驗驗證。文檔中注有相應的數據量、屬性等信息,可直接進行使用。
下載 

K-means聚類數據.rar

11-16
詳見博文:http://blog.csdn.net/hujingshuang/article/details/49867455
下載 

二維聚類數據集

09-30
用於聚類方法的數據集,包括不一樣數目的塊狀聚類、月牙形、同心環形及螺旋形分佈,可用於Kmeans、譜聚類等聚類方法的測試。
下載 

經常使用聚類分析數據集

07-01
聚類分析經常使用的人工數據集,包括:UCI:wine、Iris、yeast,還有4k2_far、leuk72_3k等數據集。它們在聚類分析、數據挖掘、機器學習、模式識別領域常常用到。
下載 

adult數據集分析

02-15
adult數據集數據挖掘,基於python語言的決策樹算法,源碼+數據adult數據集數據挖掘,基於python語言的決策樹算法,源碼+數據adult數據集數據挖掘,基於python語言的決策樹算法,源碼+數據adult數據集數據挖掘,基...
下載 

多視圖聚類數據集mfeat

09-08
該mfeat數據集主要用於多視圖聚類算法研究,其中已經有標籤,能夠用於對最終聚類算法分出來的類簇進行評估。
下載 

聚類經常使用數據集

12-29
聚類經常使用數據集
下載 

經常使用UCI數據集

06-04
經常使用的UCI數據集,可直接用於機器學習,數據挖掘,直接實現
下載 

重疊聚類數據集

07-28
可直接在matlab中用,已經處理好! 20Newsgroup.mat emotions.mat scene.mat yeast2417.mat movie_taa.mat ……
下載 

聚類、分類所用數據集

09-06
作聚類、分類時很經典的測試數據集,能夠很好的檢測你所設計的算法。我所上傳的數據集格式是.mat格式,用load命令就能夠加載。

沒有更多推薦了,返回首頁

相關文章
相關標籤/搜索