Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地建立智能應用程序,而且,在 Mahout 的最近版本中還加入了對Apache Hadoop 的支持,使這些算法能夠更高效的運行在雲計算環境中。 html
在Mahout實現的機器學習算法見下表: java
算法類 算法 |
算法名 網絡 |
中文名 框架 |
分類算法 dom |
Logistic Regression 機器學習 |
邏輯迴歸 oop |
Bayesian 性能 |
貝葉斯 學習 |
|
SVM |
支持向量機 |
|
Perceptron |
感知器算法 |
|
Neural Network |
神經網絡 |
|
Random Forests |
隨機森林 |
|
Restricted Boltzmann Machines |
有限波爾茲曼機 |
|
聚類算法 |
Canopy Clustering |
Canopy聚類 |
K-means Clustering |
K均值算法 |
|
Fuzzy K-means |
模糊K均值 |
|
Expectation Maximization |
EM聚類(指望最大化聚類) |
|
Mean Shift Clustering |
均值漂移聚類 |
|
Hierarchical Clustering |
層次聚類 |
|
Dirichlet Process Clustering |
狄裏克雷過程聚類 |
|
Latent Dirichlet Allocation |
LDA聚類 |
|
Spectral Clustering |
譜聚類 |
|
關聯規則挖掘 |
Parallel FP Growth Algorithm |
並行FP Growth算法 |
迴歸 |
Locally Weighted Linear Regression |
局部加權線性迴歸 |
降維/維約簡 |
Singular Value Decomposition |
奇異值分解 |
Principal Components Analysis |
主成分分析 |
|
Independent Component Analysis |
獨立成分分析 |
|
Gaussian Discriminative Analysis |
高斯判別分析 |
|
進化算法 |
並行化了Watchmaker框架 |
|
推薦/協同過濾 |
Non-distributed recommenders |
Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders |
ItemCF |
|
向量類似度計算 |
RowSimilarityJob |
計算列間類似度 |
VectorDistanceJob |
計算向量間距離 |
|
非Map-Reduce算法 |
Hidden Markov Models |
隱馬爾科夫模型 |
集合方法擴展 |
Collections |
擴展了java的Collections類 |
Mahout最大的優勢就是基於hadoop實現,把不少之前運行於單機上的算法,轉化爲了MapReduce模式,這樣大大提高了算法可處理的數據量和處理性能。