數據挖掘的學習資源

 

數據挖掘(Data Mining)做爲一個領域,比機器學習要大,偏應用。互聯網公司也大量使用數據挖掘技術,做爲即將畢業進入互聯網公司從事機器學習算法開發的我,最近計劃系統瞭解一下這方面的理論和技術。做爲一個習慣,學習一個東西以前總要上網找找學習資源(網站,書籍,學術期刊會議),以保證學到的是最前沿最系統的知識,並以最高效率學習。php

但願這些資源可以最終幫助本身瞭解這些酷炫的問題:搜索引擎是怎樣工做的(爲何谷歌搜索的結果老是比百度好)?數據挖掘/機器學習在互聯網公司的典型應用(例如社交網絡上的大量信息騰訊和Facebook是怎麼使用的以產生商業價值)?各類問答機器人的原理(如小度機器人/度祕,京東智能機器人)?html

另外請見我前一篇博客裏列的機器學習計算機視覺的學習資源。git

 

wikipedia.org,歷史,領域概述,資源連接:github

Data mining:介紹了數據挖掘的概念、過程、學術會議、軟件等,右側有細分條目;web

Category:Data mining:更多和數據挖掘有關的條目;算法

DMOZ關於DM:資源連接;apache

谷歌上不了推薦鏡像站,搜索和下載電子書籍推薦Library Genesis更多在線圖書館)。編程

 

大學課程、在線教程網絡

Stanford課程:CS246 Mining Massive Data SetsCS246H Mining Massive Data Sets: Hadoop LabsCS341 Project in Mining Massive Data Sets,配套書籍 Mining of Massive DatasetsDataMiningTalk機器學習

CMU課程:Data Mining: Spring 2013Statistics 36-350: Data Mining (fall 2009)

南京大學課程:Introduction to Data Mining

Coursera:Data Mining Specialization

 

專著、書籍

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, 2015; PPT;中文譯本:大數據-互聯網大規模數據挖掘與分佈式處理;

Data Mining: The Textbook, Charu C. Aggarwal, 2015; 資源連接;

Data Mining: Concepts and Techniques (3rd ed.), Jiawei Han, Micheline Kamber, Jian Pei, 2011; PPT;中文譯本:數據挖掘:概念與技術;

Data Mining and Analysis: Fundamental Concepts and Algorithms, Mohammed J. Zaki, Wagner Meira Jr, 2014; 做者網站;

Introduction to Data Mining, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2006; PPT;中文譯本:數據挖掘導論;

A Practical Guide to Data Mining for Business and Industry, Andrea Ahlemeyer-Stubbe, Shirley Coleman, 2014; PPT;

Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.), Ian H. Witten, Eibe Frank, Mark A. Hall, 2011; PPT;中文譯本:數據挖掘:實用機器學習工具與技術;

Programming Collective Intelligence: Building Smart Web 2.0 Applications, Toby Segaran, 2007; 中文譯本:集體智慧編程;

The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.), Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2009;

還有我前一篇博客裏列的書籍。

 

學術論文

頂級會議:KDDICDE

更多會議期刊見:Google Scholar DMMicrosoft academic DMKDnuggets DM Conferences

 

學習網站

KDnuggets:各類資源,博文,課程、軟件、Datasets等連接;

國內的兩個網站:我愛機器學習機器學習日報

Data Sets:UCI Machine Learning RepositoryList of Public Data Sources Fit for Machine Learning

Competitions:KaggleDMCKnowledge PitTunedITDrivenData

這裏也整理了一些資源,這裏整理了數據挖掘博客這裏有術語解釋、挖掘介紹、書推薦等不過有點老

 

程序、庫

R語言RDataMininginside-R

HadoopTutorialWiki,實現了MapReduce計算模型

SparkTutorial,做爲Hadoop的改進或補充近來很火,請看知乎的比較

相關文章
相關標籤/搜索