咱們可使用Apache Mahout來快速建立高效擴展性又好的機器學習應用。Mahout結合了諸如H2O算法、Scala、Spark和Hadoop MapReduce等模塊,爲開發人員提供了一個構建可擴展算法的環境。如今最新的版本是去年11月6日發佈的0.11.1版本。git
Apache Mahout支持一個叫作Samsara的數學環境,用戶能夠在Samsara中使用它提供的常見算法來開發本身的數學解決方案。Samsara對於線性代數、數據結構和統計操做都有着很好的支持,並且能夠經過Scala的Mahout擴展或Mahout庫來進行定製。Samara對不少常見算法都進行了重寫所以速度上有必定的提高。這裏咱們能列出的一些算法包括:樸素貝葉斯分類器、矩陣分解、協同過濾以及神經網絡。新加入的類似性分析還能夠經過分析用戶的點擊來實現共現推薦算法。
2014 年 4 月 25 日
不過 hadoop 3.0 號稱比 spark 快10唄。 不知道 Mahout 會不會跟 MR say Hi ! 互聯網變化這麼快,誰知道呢?
Mahout 概述
Mahout 安裝
一 下載解壓縮
-------未測 不推薦--------
-------已測 推薦 --------
wget 11.0 版本 也沒問題
二 配置 profile
三 獲取數據
國外教育網站專門檢測聚類
四 Mahout 測試
1 0.7 mahout 建立 hdfs dfs -mkdir /testdata (未測試)
2 0.9 mahout 建立
1)hdfs dfs -mkdir /user
2)hdfs dfs -mkdir /user/root
3 0.7 mahout 上傳 hdfs dfs -put /usr/local/opt/mahout-distribution-0.9/synthetic_control.data /testdata
0.9 mahout 上傳 hdfs dfs -put /usr/local/opt/mahout-distribution-0.7/synthetic_control.data
/user/root/testdata
上傳好測試數據後 開始運行job 命令:
hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
下載一個 Mahout 11版本。。 15年8月
解決此問題。 緣由是數據源問題。
推薦、用戶分類、文檔打標籤、疾病診斷、安全監控、質量控制、安所有門的招募、藥劑檢測等方面發揮着重要的做用。
Mahout 算法庫介紹
解析聚類算法
解析分類算法
協同過濾算法
未完待續