Hadoop 2.6 CDH5.7.0
下載地址:http://archive.cloudera.com/cdh5/cdh/5
提供的鏡像文件也遇到和我本身配置同樣的問題
17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
JDK:
其實只須要配置JAVA_HOME
下載的是Java7的51版本
linux系統本機配置:
ip映射關係
ssh免密登錄
Hadoop參數配置:
etc/hadoop目錄下:
hadoop-env.sh core-site.xml hdfs-site.xml看官方文檔修改
Hadoop-env.sh配置JAVA_HOME
core-site.xml
配置hadoop端口號。2.0版本爲8020
改tmp保存的位置,不能讓其重啓後自動刪除
hdfs-site.xml
配置副本系數
配置tmp路徑
格式化HDFS
只在第一次執行,由於每次執行會清空HDFS的數據
bin/hdfs namenode -format
啓動HDFS
sbin/start-dfs.sh
Hadoop目錄的相關:
bin目錄是客戶端相關的腳本
etc是配置相關
sbin是服務器相關
驗證是否啓動成功:
jps:
NN、DN、SNN(Second NameNode)
瀏覽器:
50070端口訪問
YARN配置:
配置yarn-site.xml和mapred-site.xml
驗證是否啓動:
jps:
RM、NM
瀏覽器:
8088端口
啓停:
sbin/start-yarn.sh stop-yarn.sh
Hive配置:
1.2.1版本
hive-env.sh 配置HADOOP_HOME路徑
hive-site.xml 配置:
四個參數:my sql URL(存放元數據的數據庫)、jdbc connecter、用戶名、密碼
拷貝jdbc driver到lib
啓動:
bin/hive
編譯Spark
scala版本2.11.8
用Maven編譯的前置要求:
- 須要的Maven版本(Spark官網上看)
- 改Maven的使用內存
Maven編譯Spark的命令(官網都有 )
對pom.xml要有必定的瞭解 裏面的hadoop、yarn、Hive、Thrift server所對應的參數(注意:yarn若和HDFS不一樣版本,要在配置時加上yarn的版本)
直接用Spark源碼中的dev目錄下的make-distribution.sh 底層也是經過Maven語句實現(推薦使用)
編譯不成功的緣由有不少....
部署Spark
啓動Spark 在Spark官網的Programing Guide有介紹:
local模式:
spark-shell —master local[n] n爲工做線程數
standalone模式:
Spark-env.sh 配置SPARK_MASTER_HOST SPARK_WORKER_CORES MEMORY INSTANCES
啓動時可指定core的數目n
還要指定Master的地址
在集羣上全部機器上都要部署一樣的Spark,比較麻煩
配置Spark SQL
先把hive-site.xml放進spark/conf中
—jars 當須要訪問Hive時必定要加入mysql-connector包