Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地建立智能應用程序。經典算法包括聚類、分類、協同過濾、進化編程等等,而且,在 Mahout還支持在Hadoop集羣中運行,使這些算法能夠更高效的運行在雲計算環境中。
目前Mahout已經發布的最高版本是0.9。在這裏https://cwiki.apache.org/confluence/display/MAHOUT/BuildingMahout能夠找到Mahout的下載路徑,能夠下載0.9版本的源碼壓縮包(mahout-distribution-0.9-src.tar.gz),也能夠從svn中co主幹代碼。java
後面的介紹都是以0.9版本的源代碼包爲基礎作的介紹。 web
前期準備:安裝maven(http://my.oschina.net/MrMichael/blog/283125)。
算法
1.下載代碼後,解壓。apache
tar -xvf mahout-distribution-0.9-src.tar.gz
(暫時此段無用)http://seanhe.iteye.com/blog/1124682編程
而後命令行進入mahout-distribution-0.9目錄執行 網絡
mvn -DskipTests install
將mahout相關模塊進行編譯,並安裝到本地maven倉庫中
若是出現內存溢出,能夠先調大JVM的堆內存大小 eclipse
export MAVEN_OPTS=-Xmx1024m
注意:此時可能報錯。通常這個問題是因爲你的網速太慢,maven沒法及時獲取須要的資源。解決辦法就是執行下機器學習
mvn clean+mvn install
清除乾淨後再裝。不過若是你的網絡特別差就要想辦法了,本人很杯具的遇到這種狀況,早上7點趁你們都不用網絡時,安裝一次成功。maven
2.生成eclipse工程,本步驟可選,可是建議進行。由於在eclipse中修改java工程代碼比較方便。仍是在mahout-distribution-0.5目錄執行如下命令 svn
mvn eclipse:eclipse
2.將 movie.dat 和 ratings.dat 拷貝到 Mahout 安裝目錄下的 /mahout-src0.9/examples/src/main/java/org/apache/mahout/cf/taste/example/grouplens 目錄下。
3.回到在 core 目錄下,運行"mvn install",將 Mahout core 安裝在本地庫中。
TODO