集羣搭建問題

時間 2019-11-08

標籤集羣搭建問題欄目負載均衡简体版

原文原文鏈接

Hadoop 2.6 CDH5.7.0

下載地址：http://archive.cloudera.com/cdh5/cdh/5

提供的鏡像文件也遇到和我本身配置同樣的問題

17/11/23 16:28:20 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException

JDK：

其實只須要配置JAVA_HOME

下載的是Java7的51版本

linux系統本機配置：

ip映射關係

ssh免密登錄

Hadoop參數配置：

etc/hadoop目錄下：

hadoop-env.sh core-site.xml hdfs-site.xml看官方文檔修改

Hadoop-env.sh配置JAVA_HOME

core-site.xml

配置hadoop端口號。2.0版本爲8020

改tmp保存的位置，不能讓其重啓後自動刪除

hdfs-site.xml

配置副本系數

配置tmp路徑

格式化HDFS

只在第一次執行，由於每次執行會清空HDFS的數據

bin/hdfs namenode -format

啓動HDFS

sbin/start-dfs.sh

Hadoop目錄的相關：

bin目錄是客戶端相關的腳本

etc是配置相關

sbin是服務器相關

驗證是否啓動成功：

jps：

NN、DN、SNN（Second NameNode）

瀏覽器：

50070端口訪問

YARN配置：

配置yarn-site.xml和mapred-site.xml

驗證是否啓動：

jps：

RM、NM

瀏覽器：

8088端口

啓停：

sbin/start-yarn.sh stop-yarn.sh

Hive配置：

1.2.1版本

hive-env.sh 配置HADOOP_HOME路徑

hive-site.xml 配置：

四個參數：my sql URL（存放元數據的數據庫）、jdbc connecter、用戶名、密碼

拷貝jdbc driver到lib

啓動：

bin/hive

編譯Spark

scala版本2.11.8

用Maven編譯的前置要求：

須要的Maven版本（Spark官網上看）
改Maven的使用內存

Maven編譯Spark的命令（官網都有）

對pom.xml要有必定的瞭解裏面的hadoop、yarn、Hive、Thrift server所對應的參數（注意：yarn若和HDFS不一樣版本，要在配置時加上yarn的版本）

直接用Spark源碼中的dev目錄下的make-distribution.sh 底層也是經過Maven語句實現（推薦使用）

編譯不成功的緣由有不少....

部署Spark

啓動Spark 在Spark官網的Programing Guide有介紹：

local模式：

spark-shell —master local[n] n爲工做線程數

standalone模式：

Spark-env.sh 配置SPARK_MASTER_HOST SPARK_WORKER_CORES MEMORY INSTANCES

啓動時可指定core的數目n

還要指定Master的地址

在集羣上全部機器上都要部署一樣的Spark，比較麻煩

配置Spark SQL

先把hive-site.xml放進spark/conf中

—jars 當須要訪問Hive時必定要加入mysql-connector包

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。