大數據學習書籍

《數學之美》;做者吳軍你們都很熟悉。這本書主要的做用是引發了我對機器學習和天然語言處理的興趣。裏面以極爲通俗的語言講述了數學在這兩個領域的應用。算法

《統計學習方法》;做者李航,是國內機器學習領域的幾個你們之一,曾在MSRA任高級研究員,如今華爲諾亞方舟實驗室。書中寫了十個算法,每一個算法的介紹都很乾脆,直接上公式,是徹頭徹尾的「乾貨書」。每章末尾的參考文獻也方便了想深刻理解算法的童鞋直接查到經典論文;本書能夠與上面兩本書互爲輔助閱讀。網絡

《MachineLearning》(《機器學習》);做者TomMitchell是CMU的大師,有機器學習和半監督學習的網絡課程視頻。這本書是領域內翻譯的較好的書籍,講述的算法也比《統計學習方法》的範圍要大不少。據評論這本書主要在於啓發,講述公式爲何成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML。但有些基礎的經典仍是不會過期的,因此這本書如今幾乎是機器學習的必讀書目。機器學習

《DataMining:Practical Machine Learning Tools and Techniques》(《數據挖掘:實用機器學習技術》);做者IanH.Witten、EibeFrank是weka的做者、新西蘭懷卡託大學教授。他們的《Managing Giga bytes》也是信息檢索方面的經典書籍。這本書最大的特色是對weka的使用進行了介紹,可是其理論部分太單薄,做爲入門書籍還可。學習

《Pattern Recognition And Machine Learning》;做者ChristopherM.Bishop[6];簡稱PRML,側重於機率模型,是貝葉斯方法的扛鼎之做,據評「具備強烈的工程氣息,能夠配合stanford大學AndrewNg教授的MachineLearning視頻教程一塊兒來學,效果翻倍。」大數據

《The Elements of Statistical Learning:Data Mining, Inference, and Prediction》,(《統計學習基礎:數據挖掘、推理與預測》第二版);做者RobertTibshirani、TrevorHastie、JeromeFriedman。「這本書的做者是Boosting方法最活躍的幾個研究人員,發明的GradientBoosting提出了理解Boosting方法的新角度,極大擴展了Boosting方法的應用範圍。這本書對當前最爲流行的方法有比較全面深刻的介紹,對工程人員參考價值也許要更大一點。另外一方面,它不只總結了已經成熟了的一些技術,並且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學習是一個仍然很是活躍的研究領域,應該會讓學術研究人員也有常讀常新的感覺。」翻譯

《DataMining:Concepts and Techniques》,(《數據挖掘:概念與技術》第三版);做者(美)JiaweiHan、(加)MichelineKamber、(加)JianPei,其中第一做者是華裔。本書毫無疑問是數據挖掘方面的的經典之做,不過翻譯版老是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東西,就好好學習英文吧。視頻

《Principle of Data Mining》D.Hand,H.Mannila and P.Smith 本書從統計學的角度看待數據挖掘,由於統計學是一門數學,因此本書強調數學上的正確性(Validity)。按照本書觀點,數據挖掘是分析(每每是大量的)數據集以找到不曾預料的關係,並以可理解又有用的新穎方式呈現給數據用戶的過程。教程

《Introduction to DataMining》Pang-NingTan,VipinKumaretc.國內目前有翻譯版(http://book.douban.com/subject/1786120/),這是我如今以爲最好的數據挖掘教材。關於分類、關聯規則、聚類每一主題都分兩章來說述:第一章講基本部分,第二章講高級部分,讓人由淺入深。另有單獨的一章介紹異常檢測。本書的第一做者是物理背景出身,因此講解很重視對於算法的理解(優缺點與適用範圍等)。本書能找到PDF版完整的習題答案,很是適合於自學。ip

《Mining of Massive Datasets》(《大數據》);做者AnandRajaraman、JeffreyDavidUllman,Anand是Stanford的PhD。這本書介紹了不少算法,也介紹了這些算法在數據規模比較大的時候的變形。可是限於篇幅,每種算法都沒有展開講的感受,若是想深刻了解須要查其餘的資料,不過這樣的話對算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比較長,讀者要用心了。ci

《數據挖掘:概念與技術》第三版,韓家煒 很是經典。

相關文章
相關標籤/搜索