前言程序員
Mahout是Hadoop家族中不同凡響的一個成員,是基於一個Hadoop的機器學習和數據挖掘的分佈式計算框架。Mahout是一個跨學科產品,同時也是我認爲Hadoop家族中,最有競爭力,最難掌握,最值得學習的一個項目之一。web
Mahout爲數據分析人員,解決了大數據的門檻;爲算法工程師,提供基礎的算法庫;爲Hadoop開發人員,提供了數據建模的標準;爲運維人員,打通了和Hadoop鏈接。算法
Mahout就是訓象人,在Hadoop上創造新的智慧!框架
目錄運維
Mahout 是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了並行挖掘的問題。機器學習
根據」Mahout In Action」書中的介紹,Mahout實現3大類算法, 推薦(Recommendation),聚類(Clustering),分類(Classification)。分佈式
下文介紹的學習路線圖,將以」Mahout In Action」書中思路展張。ide
Mahout知識點,我已經列在圖中,但願幫助其餘人更好的瞭解Mahout。oop
接下來,是個人學習經歷,誰都沒有捷徑。把心踏實下來,就不那麼難了。學習
以前,大概花了半年的時間,專門研究過Mahout,當時Mahout的資料很是少,中文資料更是僅僅幾篇。直到發現了「Mahout In Action」如獲至寶,開始反覆地讀。先不着急上手去作什麼,一遍一遍地讀。直到讀完3遍,心理纔有了一點把握。
從「推薦」算法開始,UserCF, ItemCF。 記得第一次在公司給小組講的時候,還設計了一份問卷,我列出了10個網站,(其中6個IT大站,2個我的blog,2個社交類社區),分別讓你們去投票,0-5分,0爲不知道,1-5爲對網站喜好程序。
問卷結果格式:
user1, website1, 5
user1, website2, 2
user1, website3, 4
user2, website3, 2
user3, website3, 5
user4, website3, 0
…..
經過這個問卷來模擬嘗試Mahout的推薦模型!計算的結果對你們來講,都是比較奇怪。爲何會有這樣的推薦呢。 而後,深刻Mahout源代碼,看算法的實現,知道了類似度矩陣,距離算法,推薦算法,模型驗證等,不一樣業務要求,不一樣的算法調用,對結果都是有影響的。把書中全部的的概念,關鍵詞都整理過(惋惜當時沒寫博客)。整整花了3個月,天天12個小時的強度,把推薦部分完整地學下來了。
而後,應用到實際業務中。個人任務是作「職位推薦」,我只有用戶瀏覽職位,收藏職位,申請職位的行爲數據。
第一次嘗試,直接套用推薦模型,但結果很是之差。
出現問題的緣由是有2點:
修改方案:
1. 對用戶行爲數據集進行過濾,只計算最近半年內的用戶行爲。
2. 對結果集進行過濾,排除過時的職位。
3. 分別用不一樣的算法模型計算(我記得Tanimoto的Item Base結果最好)
對於推薦結果有了大幅度的提高。故事到此就結束了!雖然我還作了更多的事情,不過這個產品因爲公司結構性調整,最終沒有上線。(程序員的悲哀!)
聚類模型,我把這個算法 應用在網站用戶的活躍度分析。假設一個網站,註冊用戶1000W,天天登錄的1W。咱們想了解一下,未登錄的999W用戶有什麼特色!!用到Mahout的k-means和Canopy作聚類,假設1000W的用戶可能能夠劃分爲5個大的羣體。最後咱們獲得了一個結果,分享到了團隊。故事又到此結束了。(實現就是這麼悲哀!)
分類模型,我嘗試着用Native Bayes對個人我的郵件進行垃圾分類。按機器學習的操做流程,歷史數據健分詞後,訓練分類器,天天時時的數據經過分類器進行判斷。整個自動化過程都已經完成。故事又結束了!(接受現實吧。)
其實還有一些,我爭取都整理出來。
Mahout是有必定的學習門檻,並且須要跨學科的知識。只要堅持學習,沒有跨不過的鴻溝!樂觀努力!