數據挖掘(Data Mining)做爲一個領域,比機器學習要大,偏應用。互聯網公司也大量使用數據挖掘技術,做爲即將畢業進入互聯網公司從事機器學習算法開發的我,最近計劃系統瞭解一下這方面的理論和技術。做爲一個習慣,學習一個東西以前總要上網找找學習資源(網站,書籍,學術期刊會議),以保證學到的是最前沿最系統的知識,並以最高效率學習。php
但願這些資源可以最終幫助本身瞭解這些酷炫的問題:搜索引擎是怎樣工做的(爲何谷歌搜索的結果老是比百度好)?數據挖掘/機器學習在互聯網公司的典型應用(例如社交網絡上的大量信息騰訊和Facebook是怎麼使用的以產生商業價值)?各類問答機器人的原理(如小度機器人/度祕,京東智能機器人)?html
另外請見我前一篇博客裏列的機器學習計算機視覺的學習資源。git
wikipedia.org,歷史,領域概述,資源連接:github
Data mining:介紹了數據挖掘的概念、過程、學術會議、軟件等,右側有細分條目;web
Category:Data mining:更多和數據挖掘有關的條目;算法
DMOZ關於DM:資源連接;apache
谷歌上不了推薦鏡像站,搜索和下載電子書籍推薦Library Genesis(更多在線圖書館)。編程
大學課程、在線教程:網絡
Stanford課程:CS246 Mining Massive Data Sets,CS246H Mining Massive Data Sets: Hadoop Labs,CS341 Project in Mining Massive Data Sets,配套書籍 Mining of Massive Datasets,DataMiningTalk;機器學習
CMU課程:Data Mining: Spring 2013,Statistics 36-350: Data Mining (fall 2009);
南京大學課程:Introduction to Data Mining;
Coursera:Data Mining Specialization。
專著、書籍:
Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, 2015; PPT;中文譯本:大數據-互聯網大規模數據挖掘與分佈式處理;
Data Mining: The Textbook, Charu C. Aggarwal, 2015; 資源連接;
Data Mining: Concepts and Techniques (3rd ed.), Jiawei Han, Micheline Kamber, Jian Pei, 2011; PPT;中文譯本:數據挖掘:概念與技術;
Data Mining and Analysis: Fundamental Concepts and Algorithms, Mohammed J. Zaki, Wagner Meira Jr, 2014; 做者網站;
Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2006; PPT;中文譯本:數據挖掘導論;
A Practical Guide to Data Mining for Business and Industry, Andrea Ahlemeyer-Stubbe, Shirley Coleman, 2014; PPT;
Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.), Ian H. Witten, Eibe Frank, Mark A. Hall, 2011; PPT;中文譯本:數據挖掘:實用機器學習工具與技術;
Programming Collective Intelligence: Building Smart Web 2.0 Applications, Toby Segaran, 2007; 中文譯本:集體智慧編程;
The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.), Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2009;
還有我前一篇博客裏列的書籍。
學術論文:
更多會議期刊見:Google Scholar DM,Microsoft academic DM,KDnuggets DM Conferences。
學習網站:
KDnuggets:各類資源,博文,課程、軟件、Datasets等連接;
Data Sets:UCI Machine Learning Repository,List of Public Data Sources Fit for Machine Learning;
Competitions:Kaggle,DMC,Knowledge Pit,TunedIT,DrivenData;
這裏也整理了一些資源,這裏整理了數據挖掘博客,這裏有術語解釋、挖掘介紹、書推薦等不過有點老。
程序、庫: