統計分析/機器學習吐血整理最強指南

這篇文章的初衷是由於常常逛論壇、知乎或者在微信羣的時候,都會遇到有朋友問,若是想學習統計分析或者機器學習有什麼推薦的資料,所以浩彬老撕根據本身的經驗和數據分析專家的建議總結了一個學習清單。其實咱們都有過轉發某類文章,而後能夠下載一大堆資料的經歷。但問題是這些材料咱們下載後就一直放在那其實一直都沒有看過的。html

 

#關於這份學習清單#web

我會按照基礎到入門給出詳細推薦,而且附上我的點評。同時儘可能作到各個資料在內容上並不重複(即便內容上有重複,也會在難度上作出區分),但願能夠以最直接的方式告訴你們應該怎麼選擇。算法

Ps:這是初版學習指南,因爲最近時間比較緊張,預計在第二版中會加入業務材料的推薦和更多的學習索引,歡迎關注。微信

 

1網絡

先驗知識                        機器學習

 

因爲統計學機率論甚至到機器學習會對數學基礎有必定要求,因此這裏給出一些先驗知識的內容推薦,主要是矩陣方面。工具

1.1   課程學習

可汗學院公開課:線性代數課程網站

http://open.163.com/special/Khan/linearalgebra.htmlspa

由於網易公開課有翻譯,這裏是中文字幕課程連接,這裏真要給網易100個贊,字幕作得很好。

「可汗學院(Khan Academy),是由孟加拉裔美國人薩爾曼·可汗創立的一家教育性非營利組織,主旨在於利用網絡影片進行免費授課,現有關於數學、歷史、金融、物理、化學、生物、天文學等科目的內容,教學影片超過2000段,機構的使命是加快各年齡學生的學習速度。」

 

1.2 參考書籍

(1)線性代數  豆瓣評分7.3


清華居餘馬老師的線性代數教材,比較經典的教材了,裏面的知識足夠支撐咱們後續統計分析和機器學習須要。

 

(2)高等代數 豆瓣評分8.1

相比於線性代數,高等代數更加深刻,通常線性代數爲非數學專業所用,數學類專業通常學習高等代數。不過通常狀況下,線性代數也足夠使用了。

 

固然,在後續學習中有些算法也會用到微積分的知識,可是都比較基礎,所以遇到不懂的時候直接查資料便可,就沒有特定推薦材料了。

 

 

 

2

統計分析學習資料          

 

2.1 統計學/機率課程

一樣推薦可汗學院的統計學和機率課程,並且恰好這兩門課程也被網易公開課進行了翻譯:

(1)  可汗學院公開課:統計學

http://open.163.com/special/Khan/khstatistics.html

(2)  可汗學院公開課:機率

http://open.163.com/special/Khan/probability.html

 
這兩本課程整體不算太難,適合入門。我的以爲講授仍是蠻有特色的,粗暴直接,另外舉的例子也是蠻有趣的。

 

2.2統計學/機率參考書

(1)統計學  豆瓣評分8.8
做者William Mendenhall / Terry Sincich 

「《統計學(原書第5版)》內容豐富,不多涉及統計學理論的嚴格數學證實,絕大部分是與實際應用緊密聯繫的例子和練習,適合做爲理工科各專業本科生、研究生的統計學教材,也可做爲相關領域研究人員的參考讀物。」
很是注重實用的統計學課程,偏應用,少數學證實,可讀性比較強

(2)統計學  豆瓣評分7.3
做者:賈俊平,何曉羣,金勇進

統計比較通用的入門教材了,不知不覺居然到了第六版,我的認爲也算是兼顧數學證實和應用,可讀性沒有上面強,可是也很是的通俗易懂,有不少統計學專業的起始教材也會選擇這本。

(3)統計推斷  豆瓣評分8.8,/英本本來9.2
做者:William Mendenhall / Terry Sincich


很是經典經典的統計學教材,借用介紹「從機率論的基礎開始,經過例子與習題的旁徵博引,引進了大量近代統計處理的新技術和一些國內同類教材中不常見而又廣爲使用的分佈。其內容既包括工科機率入門、經典統計和現代統計的基礎,又加進了很多近代統計中數據處理的實用方法和思想」
能夠做爲研究生所用教材,有深度,可是做者按部就班,解釋得很是漂亮

 

 

3

機器學習資料                 

 

3.1機器學習課程

強烈推薦Andrew NG吳恩達的斯坦福機器學習課程,英文授課,可是已有完善的中文字幕,內容很是豐富且充實(20節),而且講解得很是的好,若是你想學習機器學習,必定不能錯過!

Coursera地址:

https://www.coursera.org/learn/machine-learning#

網易公開課地址:

http://open.163.com/special/opencourse/machinelearning.html

同時該課程配有課件講義,一樣建議你們在學習視頻課程之餘多看講義和習題,雖然是英文,可是閱讀上基本沒有什麼問題,就講義自己也是很是的棒。

 

若是你們學習完Andrew NG的機器學習,還想經過其餘課程舉一反三,相互借鑑的話,能夠上Coursera上門搜索還有其餘選擇,例如臺大的機器學習基礎等等,但毫無疑問首推Andrew NG的課程;

另外如今國內也有愈來愈多的培訓網站推出相關課程,你們有興趣的能夠本身搜搜,這裏就不作推薦了;

 

3.2機器學習教材

(1)數據挖掘導論  豆瓣評分8.4,/英本本來8.8

做者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

介紹得很是全面的一本書,但可能由於須要涵蓋的內容太多,因此不免有些算法只能簡單介紹。儘管這樣,我的認爲也是很是可貴一見的入門教材,有必定難度。這本書從簡單的數據開始,到各類分類算法,聚類算法,關聯規則都有相對完整的指引,我認爲對於咱們構建自身的統計挖掘體系是有很大的幫助。中文版本翻譯仍是挺好的,可是英文原版那是極好的。

 

(2)統計學習方法  豆瓣評分:8.9

做者:李航

我的認爲中文教材裏面少見的精品,雖然精簡,但邏輯很是的清晰,很是詳細地爲咱們剖析了算法原理,可能不太適合入門者,可是仍是很是值得推薦閱讀學習,建議將《數據挖掘導論》以及《統計學習方法》相互借鑑學習

 

(3)The Elements of Statistical Learning(統計學習基礎)

豆瓣英本原版評分9.4 中文評分7.4

做者:Trevor Hastie

這本書被廣大人民喜稱爲ESL,雖然書名是統計學習基礎,可是此書一點都不基礎,一點都不~另外此書還有一本專門的入門版本ISL(後面會介紹)

這本書涵蓋了很是多的內容,講解深刻,有人評價說,「有了這本書就不須要其餘機器學習教材」,雖然有點誇張,可是此書實際是機器學習的經典巨做,若是你真的但願好好研究機器學習,此書很是值得仔細研讀,另外此書要求不低的統計理論和數學基礎。

此外,這本書還有一個牛逼的地方在於,做者把書放在網上免費下載:

http://statweb.stanford.edu/~tibs/ElemStatLearn/

 

 

 

前面都是一些理論知識,可是數據科學裏面實踐應用又是另一個重中之重,接下來談一下藉助工具進行實踐應用的問題,因爲Python還在整理當中,本次主要介紹SPSS與R語言

 

 

4

SPSS學習資料              

 

考慮到SPSS分爲統計模塊Statistics以及數據挖掘模塊Modeler , 所以也分爲兩大塊介紹

 

4.1SPSS統計分析資料

SPSS Statistics 市面上的書籍比較多,從我我的的角度,認爲張文彤老師的系列足以讓你們加深對統計體系的理解,同時也能很好掌握在實際的應用當中如何使用統計分析幫助咱們完成任務,我認爲掌握統計分析原理實戰和SPSS操做,如下兩本書足矣。

(1)  SPSS統計分析基礎教程 豆瓣評分8.4

提供了包括醫療、經濟、市場研究等方面的案例貫穿了全書,可以很好從實際應用角度把統計分析原理和SPSS操做結合起來,也提供了很好的結果解讀,不失爲一本極好的工具指南

 

(2)高等學校教材(SPSS統計分析高級教程)豆瓣評分7.7


相比於基礎教材,高級教程介紹了更多的統計算法模型,同時也提供了一些統計新方法和新觀點的講解。總體來講直觀易懂,可以很好提高實戰能力

 

另外張文彤老師也有對應視頻課程 《張文彤SPSS初中級教程》以及《張文彤SPSS高級教程》

 

4.2 SPSS機器學習教程

(1)Modeler官方的幫助文檔和Sample文件


Modeler提供完備Sample數據和數據建模文件,而且配套中文說明,能夠幫助入門者一步一步搭建數據建模流並理解實際應用場景。Modeler提供的幫助文檔包括有算法說明,節點說明,Crisp-dm方法論,應用文檔等,其中比較重要一本如:《IBM SPSS Modler 應用程序指南》

 

(2) IBM SPSS數據分析與挖掘實戰案例精粹  豆瓣評分9.3

做者:張文彤,鍾雲飛


很是詳盡工具手冊,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解整個案例的完整分析過程,並將模型和軟件的介紹融於案例講解之中,尤爲是書本最後幾章實踐案例,從商業問題界定到商業應用,給出了很是詳盡的建模指南,我的認爲目前市面上Modeler最好的工具手冊;另外即便不是使用SPSS,而是用其餘工具,該書後面的例子也值得你們研讀。

 

 

5

R語言學習資料             

 

(1)R語言實戰  豆瓣評分8.8

做者:Robert I.Kabacoff

首先這本書絕對能夠擔當平常工具手冊,從基本操做,數據處理,數據建模,圖形展現都給出了很是詳盡的介紹;其次雖然是工具手冊,可是可以結合基本統計知識於簡單案例,具備很強實踐性,強烈建議各位把書中的代碼都實現,相信可以大大提高R的功力。最後說一句,此書翻譯得不錯。

 

(2)AnIntroduction to Statistical Learning(統計學習導論)  英本版豆瓣評分9.5,中文版7.6

做者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman 


此書被廣大人民羣衆稱爲ISL,沒錯,就是上面ESL的入門版本。不管做爲統計教材推薦仍是R語言教材推薦都稱得上5星的讀物。ISL雖然是入門版本,可是絕對不是由於內容簡單。深刻淺出,內容詳細,經常讀完有種恍然大悟的感受,同時可以結合R語言介紹,大大的加分。

 

最後,此文還會不斷更新(這個也得取決於浩彬老撕的讀書速度),後續可能還會在各個主題下修改或更新推薦,例如在R的主題上推薦更多的專有讀物(例如ggplot2),也會增長如Python,數據等方面的資源。最後歡迎你們推薦你認爲更好的材料給浩彬老撕!

相關文章
相關標籤/搜索