背景:某二本院校大四學生;
說一說本身的學習經歷吧。不知道能不能對題主有所幫助。
跟大多數人同樣,是從Andrew Ng大神的coursera課程接觸到機器學習。在學那門課的時候也就老老實實的看完,看到最後,聽到Andrew說看完這些課程的人基本上已經超過硅谷半數的工程師了(具體不記得了,大意是說看完就屌屌的了),前一秒,我是信的,後一秒,我自問我到底會了啥,無非就知道些機器學習的名詞,算法的基本思路。
而後我該幹嗎?
找本書來看看啊,找另一個公開課看看啊,給腦子裏那個模型增長數據量啊。
《統計學習方法》+臺大的公開課《機器學習基石》和《機器學習技法》這個組合簡直槓槓,我敢拍着胸脯說我看了4遍,第1遍是照着課程進度配合書籍一塊兒學習,第2遍是課程完結後的複習,第三、4遍在我參加kaggle比賽的時候進行知識的回顧。
這個組合裏面的書籍能夠換成該課程對應的教材,贊數較多了我再貼個網盤下載地址吧(這過年過節的,要個贊不過度吧哈哈哈)
看完書籍和公開課,我發現,數學很重要!數學很重要!數學很重要!在看Ng的課時倒尚未這個感受,看臺大課程的時候明顯感受到數學知識的比重陡然增長。而後就看了MIT的線性代數公開課和微積分,這才解決了公開課裏面的部分疑惑。
理論的知識大概瞭解了,而後我該幹嗎?
python大法好啊!什麼C++,java啥的真複雜,直接作個調包俠多麼愉快啊。二話不說,直接就學, Python 2.7教程,感謝廖叔叔。接下來就是熱門的機器學習算法包 scikit-learn: machine learning in Python 。什麼,算法輸入要求是pandas data frame ,來一本 利用Python進行數據分析 (豆瓣)。 至此,已經學會基本的數據預處理了,這些不管是書籍仍是公開課都直接略過不會教的。
在這裏要隆重推薦 周志華老師的 機器學習 (豆瓣) ,目前看過的最好的中文的機器學習教材,涵蓋了不少教材所沒有的 數據預處理,特徵工程。這書,得供起來。
會調用算法了,而後我該幹嗎?
機器學習?數據挖掘?這二者到底界限在哪裏?要不就都看看吧,有了這個想法後,我找了cousera上UIUC 的data mining 專項課程 Specialization來看,裏面有兩門課是大名鼎鼎的韓家煒教授所教的。至此,我知道了pattern mining,搜索引擎的基本框架和原理,文本挖掘和天然語言處理的一點知識,聚類分析的大概。這些課程中都會夾雜着以前所學的機器學習算法。
每節課課後推薦的延伸閱讀文章和書籍很是值得去看一看!
瞭解了一些應用,而後我該幹嗎?
玩啊!固然是好好玩機器學習/數據挖掘比賽啊, Kaggle: The Home of Data Science,我把101,playground這兩個級別的比賽刷了一遍,而後鼓足勇氣參加了一個有獎金的比賽!最後排名情況是在1800多個隊伍排300多名。
一開始不知道怎麼去作一個kaggle比賽的時候,我照着 https://www.dataquest.io/section/kaggle-competitions 的教程過了一遍,大概就知道整個流程。
偶然一次,碰到數據量特別大的比賽,數據量上G,套了一個模型上去後,直接memory error。這讓我知道了大數據處理平臺 Apache Spark™的好用之處,也再一次證實了,學習python的好處 Welcome to Spark Python API Docs!。我在windows 10的系統上嘗試着跑一個單機版的spark來玩玩,配置過程一直出錯,巨麻煩。這個時候我感覺到了linux的友好!(沒有黑windows的意思)也由於這樣,順便學習了linux操做系統。推薦 鳥哥的 Linux 私房菜 -- 鳥哥的 Linux 私房菜 首頁。
會玩了,而後我該幹嗎?
找工做啊!我在拉勾網、100offer、哪上班和實習僧這些招聘網站找數據挖掘/機器學習的崗位,把招聘要求裏面的共同需求點給標記出來。
- 常見機器學習算法
- 數據庫
- java、c++、python、R
- linux操做系統
- 數據結構與算法
固然我以爲本身在機器學習算法方面還有不少疑惑和不瞭解的地方,正準備去研讀下經典的PRML。
其實說了這麼多,無非是想說,我是在一次次的需求和興趣的驅動下去學習的,題主不妨仔細地思考下本身的需求,從機器學習的應用方面去找找靈感,也許會是不錯的選擇。
然而我說了這麼多,我學了這麼些東西,我仍是 找不到實習!找不到實習!找不到實習!投了簡歷卻是給我個反饋啊喂!我容易嗎我!!
____________________________________________________________________________
臺大《機器學習基石》+《機器學習技法》 配套書籍
連接: http://pan.baidu.com/s/1dEkDfNz 密碼: dnrh