機器學習開發與應用html
第一章 前言... 2java
第二章 平臺的選擇... 2python
第三章 API的學習... 2算法
3.1 Scikit_learn. 2apache
3.2 Spark MLLib. 3sass
第四章 進一步提高... 3機器學習
第五章 原理層面的提高... 4分佈式
第六章 補充的學習... 4ide
6.1 遇到一個知識點,不斷的google,查看別人的文章... 4學習
6.2 快速閱讀大量的相關書籍,我閱讀了大概20幾本,也會一併上傳... 4
6.3 閱讀文獻,我下載了少許的文獻也會一併上傳... 4
第七章 機器學習的將來... 4
第八章 總結... 5
8.1 學會快速閱讀... 5
8.2 學會快速的GOOGLE. 5
8.3 不努力是不行的... 5
8.4 多寫代碼... 5
本文主要講的是學習的方法、路線和一些實踐經驗,不會涉及細節。
下面的文章講的很是好:
http://spark.apache.org/docs/latest/ml-guide.html
總結下:
生產環境用spark MLLib
優勢:分佈式,能處理大數據;
缺點:算法種類很少
語言:python、scala、java
演示環境或者科研環境用scikit-learn
優勢:算法種類多樣,演示方便
缺點:不是分佈式
語言:python
官網:http://scikit-learn.org/stable/
學習方法:範淼和李超的《python機器學習機實踐-----從零開始通往Kaggle競賽之路》
學習心得:該書適合機器學習的入門者,很是實用,但存在部分API過期,可經過官網修正;
須要下載該書附帶的源碼,本身動手編寫代碼;
該書例子內的數據都比較乾淨,須要本身去UCI等網站下載數據進行嘗試;
UCI網址:http://archive.ics.uci.edu/ml/
官網:http://spark.apache.org/docs/latest/ml-guide.html
官網文檔的中文版本:http://blog.csdn.net/liulingyuan6/article/details/53582300
學習方法:
l 首先簡單瀏覽官網或者對應的中文文檔,其中pipline須要全看,特徵提取和特徵轉換隨機看幾個,分類、迴歸、聚類、協同過濾都分別看幾個例子,模型選擇和調試全看。
l 閱讀spark自帶的代碼,並作簡單修改進行代碼編寫,我寫的一些代碼路徑:
/usr/local/spark/examples/src/main/python/ml
l https://www.ibm.com/search/csass/search/?q=Spark+%E5%AE%9E%E6%88%98&sn=dw&lang=zh&cc=CN&en=utf&hpp=20&dws=cndw&lo=zh閱讀裏面的文章,並改爲python版本,期間確定會遇到各類問題,藉此機會熟悉語法
http://www.cnblogs.com/pinard/
閱讀上面的文章,裏面講解了各類機器學習算法的原理、優缺點、適用場景和調優經驗
學習方法:算法原理只能說是簡單的介紹,能夠簡單看看,看不懂能夠直接跳過之後再看;
其餘內容建議所有閱讀
經過上面的學習,已經具有解決基本問題的能力,但對原理若是能更好的瞭解,分析和解決問題的思路將更加開闊。
學習方法:吳恩達做爲業界公認的大牛,他的公開課很是的給力
http://open.163.com/special/opencourse/machinelearning.html
同時到CSDN上找一些別人聽課的學習筆記
羅馬不是一天建成的,學這個必定有耐心,切記浮躁
深度學習 遷移學習
須要更深一步的理論基礎,能夠玩玩tensorflow
上面是小小的總結,主要是學習路線和方法,不斷實踐纔是獲取知識的捷徑