《UCI數據集和源代碼》html
UCI數據集是一個經常使用的標準測試數據集,下載地址在java
http://www.ics.uci.edu/~mlearn/MLRepository.htmlpython
個人主頁上也有整理好的一些UCI數據集(arff格式):mysql
http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.ziplinux
在看別人的論文時,別人使用的數據集會給出數據集的出處或下載地址(除非是很機密的數據,例如與國家安全有關)。若是你看的論文沒有給出數據集的出處,請當即中止看這篇論文,而且中止看刊發這篇論文的期刊上的全部文章。由於能夠判定這些文章質量不好。ios
關於源代碼,網上有不少公開源碼的算法包,例如最爲著名的Weka,MLC++等。Weka還在不斷的更新其算法,下載地址:web
http://www.cs.waikato.ac.nz/ml/weka/算法
不少的機器學習的經典算法都在裏面。並且公佈源程序,易於修改。sql
若是做者沒有公佈源程序,能夠到做者主頁找找,也能夠寫信給做者要,通常論文開頭都會有做者的email地址。寫信的時候要注意要頗有禮貌,不然做者,尤爲是著名學者,頗有可能不會理睬。若是算法簡單,能夠本身實現。數據庫
關於論文的下載,若是可以訪問電子圖書館是最好的,不少學校都買了IEEE, Elsevier, Kluwer等,上面的期刊都不錯。有一些很好的期刊是免費的,像JAIR和JMLR,分別在:
http://www.cs.washington.edu/research/jair/home.html
若是能訪問的免費期刊太少,能夠到CiteSeer上搜索(http://citeseer.ist.psu.edu/ ),上面蒐集了不少免費論文(可是要注意,論文的質量良莠不齊),或者用Googlewww.google.com )搜索。
再囑咐兩點,要作研究,首先要打好基礎,例如數學基礎和程序設計能力,要學會熟練使用google等搜索引擎,還有必定要看高質量的論文。
《數據挖掘的數據集資源》
你們作數據挖掘研究時,經常爲找不到合適的數據而發愁。在KDNuggets上有Datasets欄目,提供一些數據集,網址爲:http://www.kdnuggets.com/datasets/
還有另一個很好的資源網址爲:http://kdd.ics.uci.edu/ ,裏面包含的數據資源以下(按應用領域劃分):
Direct Marketing
KDD CUP 1998 Data
GIS
Forest CoverType
Indexing
Corel Image Features
Pseudo Periodic Synthetic Time Series
Intrusion Detection
KDD CUP 1999 Data
Process Control
Synthetic Control Chart Time Series
Recommendation Systems
Entree Chicago Recommendation Data
Robots
Pioneer-1 Mobile Robot Data
Robot Execution Failures
Sign Language Recognition
Australian Sign Language Data
High-quality Australian Sign Language Data
Text Categorization
20 Newsgroups Data
Reuters-21578 Text Categorization Collection
NSF Research Awards Abstracts 199 0-2003
World Wide Web
Microsoft Anonymous Web Data
MSNBC Anonymous Web Data
Syskill Webert Web Data
轉:http://blogger.org.cn/blog/more.asp?name=DMman&id=24043
一、氣候監測數據集 http://cdiac.ornl.gov/ftp/ndp026b
二、幾個實用的測試數據集下載的網站
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網址能夠找到reuters數據集http://www.research.att.com/~lewis/reuters21578.html
如下網址上有各類數據集:
http://kdd.ics.uci.edu/summary.data.type.html
進行文本分類,還有一個數據集是能夠用的,即rainbow的數據集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
三、找了不少測試數據集,寫論文的同志們確定須要的,至少能用來檢驗算法的效果
可能有一些不能訪問,可是總有能訪問的吧:
UCI收集的機器學習數據集
http://www.ics.uci.edu/~mlearn//MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
樣本數據庫
http://www.ics.uci.edu/~mlearn/MLRepository.html
關於基金的數據挖掘的網站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters數據集
http://www.research.att.com/~lewis/reuters21578.html
各類數據集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
進行文本分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
時間序列數據的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的測試數據
http://www.almaden.ibm.com/cs/quest/syndata.html
數據生成器的連接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
關聯:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融數據:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
另外一我的提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網址能夠找到reuters數據集
http://www.research.att.com/~lewis/reuters21578.html
如下網址上有各類數據集:
http://kdd.ics.uci.edu/summary.data.type.html
進行文本分類,還有一個數據集是能夠用的,即rainbow的數據集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相關連接數據集(借花獻佛了):
http://www.kdnuggets.com/datasets/index.html
你也能夠到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017
察看kdnuggets 數據集資源的詳細介紹。
數據挖掘相關比賽以及數據集
2005 University of California data mining contest , predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.