在數據分析、挖掘方面,有哪些好書值得推薦?

入門讀物:html

  1. 深刻淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:很是易。
  2. 啤酒與尿布 (豆瓣) 經過案例來講事情,並且是最經典的例子。難易程度:很是易。
  3. 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和作法很是有幫助。難易程度:易。
  4. 數學之美 (豆瓣) 這本書很是棒啦,入門讀起來很不錯! 
數據分析:
  1. SciPy and NumPy (豆瓣) 這本書能夠歸類爲數據分析書吧,由於numpy和scipy真的是很是強大啊。 
  2. Python for Data Analysis (豆瓣) 做者是Pandas這個包的做者,看過他在Scipy會議上的演講,實例很是強!
  3. Bad Data Handbook (豆瓣) 很好玩的書,做者的角度很不一樣。
適合入門的教程:
  1. 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。做者經過實際例子介紹了機器學習和數據挖掘中的算法,淺顯易懂,還有可執行的Python代碼。難易程度:中。
  2. Machine Learning in Action (豆瓣) 用人話把複雜難懂的機器學習算法解釋清楚了,其中有零星的數學公式,可是是以解釋清楚爲目的的。並且有Python代碼,大讚!目前中科院的王斌老師(微博:王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書自己質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,可是因爲寫得很簡單,比較理解,又有 Python 代碼跟着,輔助理解。
  4. 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課做爲教材,沒有推薦Jiawei Han老師的那本書,由於我的以爲那本書對於初學者來講不太容易讀懂。難易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是經過實例講解機器學習算法,用R實現的,能夠一邊學習機器學習一邊學習R。

稍微專業些的:算法

  1. Introduction to Semi-Supervised Learning (豆瓣) 半監督學習必讀必看的書。
  2. Learning to Rank for Information Retrieval (豆瓣) 微軟亞院劉鐵巖老師關於LTR的著做,啥都不說了,推薦!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。
  4. 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必需要讀的書,並且是第一本要讀的書。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創刊號,能夠免費下載,比較難懂,可是一旦讀通了,graphical model的相關內容就能夠踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 經典,其實主要是講 NLTK 這個包,可是啊,NLTK 這個包幾乎涵蓋了 NLP 的不少內容了啊!

機器學習教材:編程

  1. The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,很是贊!能夠參照着代碼學習算法。
  2. 統計學習方法 (豆瓣) 李航老師的扛鼎之做,強烈推薦。難易程度:難。
  3. Machine Learning (豆瓣) 去年出版的新書,做者Kevin Murrphy教授是機器學習領域中年少有爲的表明。這書是他的集大成之做,寫完以後,就去Google了,產學研結合,沒有比這個更好的了。

    Machine Learning (豆瓣) 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 以前作過我帶的研究生教材,因爲配有代碼,因此理解起來比較容易。網絡

  4. Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
  5. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,不折不扣的Bayesian學派的書,裏面的內容很是多,有一張圖將機器學習中設計算法的關係總結了一下,很棒。
  6. Probabilistic Graphical Models (豆瓣) 鴻篇鉅製,這書誰要是讀完了告訴我一聲。
  7. Convex Optimization (豆瓣) 凸優化中最好的教材,沒有之一了。課程也很是棒,Stephen老師拿着紙一步一步推到,圖一點一點畫,太棒了。

《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)框架

做者之一Rachel Schutt本科在密歇根大學學習數學,同時擁有紐約大學數學碩士學位,以及斯坦福大學工程經濟系統和運籌學雙碩士學位,美國哥倫比亞大學統計學博士學位,然後在谷歌研究所擔任統計學專家。Johnson研究實驗室的高級科學家兼創始人之一,目前在哥倫比亞大學講授「數據科學導論」(Introduction to Data Science)課程。她提出了 數據科學家的概念即「計算機科學家、軟件工程師和統計學家的混合體。」另外一位做者Cathy O’Neil是哈佛大學數學博士,麻省理工學院數學系博士後,目前在華爾街的德劭基金(D.E.Shaw)作quant。(總之是兩個大牛XD)

本書前面幾個章節大體介紹了數據分析法、一些機器學習算法、線性迴歸和邏輯迴歸、樸素貝葉斯等等。其中有一些內容須要一些數學基礎才能吃透。 第六到十章節是本書的精華,詳細介紹瞭如何利用金融及社交網絡中的數據進行數據建模分析,值得反覆回味。機器學習

《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)分佈式

本書適合剛入行的數據愛好者以及有兩三年工做經驗數據科學家,做者立志打造一個full-stack解決方案(包括開發框架、運行環境等,有了它無需再下載別的軟件)來減小前期在數據準備上必須花費的大量時間。此外書中的一些例子放在了GitHub上,建議一邊看書一邊DIY。 目前市面上關於 Spark的書籍很少,這本120多頁的薄書能夠當作預熱。Spark同Hadoop同樣是基於Mapreduce算法實現的分佈式計算,不一樣的是任務的中間輸出結果能夠保存在內存中無需讀寫HDFS,因此更加適合須要進行反覆迭代的機器學習算法實驗。做者Holden Karau曾在亞馬遜數據挖掘項目組,目前是一名在谷歌工做的軟件研發工程師。

《New Internet:大數據挖掘》 —— 是MS的一位資深專家寫的,從算法到工具,再到DM在日誌分析、營銷郵件、電商、移動等業務中的實際應用,內容有較全面的介紹,語言淺顯易懂,做DM領域進門讀物很不錯。而且在每章節後都有提供本章提到的工具或數據來源,方便學習。工具

《數據挖掘與數據化運營實戰:思路、方法、技巧與應用》—— 這是ALi的一位數據專家寫的,從書名能看出這本偏運營實踐,裏面有不少電商方面的實踐案例。固然也有幾章節概述DM工具和算法,做爲入門介紹。oop

一、誰說菜鳥不會數據分析 (豆瓣) 其實EXCEL在工做中仍是大殺器,緣由是易傳承,好傳播學習

二、調查研究中的統計分析法 (豆瓣) 統計學確定要了解,統計學書均可以的

三、SPSS統計分析精要與實例詳解 (豆瓣) SPSS的內容,我是從這本書開始看的,由於這本書每一個方法都有案例,能夠直接看案例明白理論的做用,再加上 SPSS官方說明文檔 基本上就夠了

四、數據挖掘與數據化運營實戰 (豆瓣) ali的專家寫的,看了這本書能理解不少方法的適用場景,適用場景和數據解讀能力對於業務能力要求很高。

數據倉庫工具箱:維度建模的徹底指南》

《Microsoft數據倉庫工具箱》

《SQL Server 2008 分析服務從入門到精通》

《SQL Server 2008 報表服務從入門到精通》

另外,推薦如下連接:

原文地址:知乎

本文轉自連接: http://www.zhihujingxuan.com/19146.html進行了從新整理

相關文章
相關標籤/搜索