大數據之路【第十四篇】:數據挖掘--推薦算法(Mahout工具)

數據挖掘---推薦算法(Mahout工具)

1、簡介

  • Apache頂級項目(2010.4)
  • Hadoop上的開源機器學習庫
  • 可伸縮擴展的
  • Java庫
  • 推薦引擎(協同過濾)、聚類和分類

 

2、機器學習介紹

  • 一般問題都歸爲這幾類問題
  • 分類問題
  • 迴歸問題
  • 聚類問題
  • 推薦問題

3、安裝方法

3.1 下載Mahout

wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz

3.2 解壓

tar -zxvf  mahout-distribution-0.9.tar.gz

4、配置環境變量

4.1 配置mahout環境變量

# set mahout environment
export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

4.2 配置Mahout所需的Hadoop環境變量

# set hadoop environment
export HADOOP_HOME=/usr/local/src/hadoop-1.2.1
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=not_null

5、驗證是否成功

直接執行mahout命令算法

支持算法列表apache

6、準備數據

數據格式:
1,100001,5
1,100002,3
1,100003,4
1,100004,3
1,100005,3
1,100007,4
1,100008,1
1,100009,5
1,1000011,2

7、訓練

INPUT="/movie_lens.data"
TMP_DIR="/mahout_temp"
OUTPUT="/cf_mahout_output"
MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout「
$MAHOUT_CMD itemsimilarity
-i $INPUT
-o $OUTPUT
--maxSimilaritiesPerItem 1000
--threshold 0.0000001
--similarityClassname SIMILARITY_COSINE
--tempDir $TMP_DIR

 

 8、輸出結果

相關文章
相關標籤/搜索