CDH 5 安裝教程,Kafka 安裝,LZO 安裝

目 錄

主機列表

|主機名 | IP |Memory| CPU | 角色及服務 | | :------- | ----: |:---: |:--- |:--- | | test1.lan | 192.168.22.11 |9G |4核 | cm-agent, Namenode, YARN | | test2.lan | 192.168.22.12 |9G |4核 | cm-agent, SecondNameode, HBase-Master | | test3.lan |192.168.22.13 |9G |4核 | cm-agent, Datanode, zk-server, kafka-broker, Regionserver | | test4.lan |192.168.22.14 |9G |4核 | cm-agent, Datanode, zk-server, kafka-broker, Regionserver | | test5.lan | 192.168.22.15 |9G |4核 | cm-agent, Datanode, zk-server, kafka-broker, Regionserver | | test6.lan |192.168.22.16 |9G |4核 | cm-server, MySQL-Server |

基礎環境

  1. CentOS 6 x86_64

  2. jdk-8u101-linux-x64.rpm

  3. MySQL-5.6.x

  4. NTPd => On

  5. CDH-5.12.0-1.cdh5.12.0.p0.29-el6.parcel(離線parcel)

  6. cloudera-manager-el6-cm5.12.0x8664.tar.gz

  7. KAFKA-2.2.0-1.2.2.0.p0.68-el6.parcel

集羣主機基礎配置

  1. 確保 / 目錄至少100G以上

  2. SELinux 關閉

  3. iPtables 關閉

  4. 禁用 Transparent Hugepage Compaction

  5. 設置 vm.swapiness 爲 1

  6. ntp 服務開啓,時間同步(不推薦用ntpdate)

配置 NTP 服務

如下配置集羣內每臺主機均要作一次

```

vim /etc/sysconfig/ntpdate SYNC_HWCLOCK=yes // 打開硬件時鐘同步保存 ntpdate time.windows.com 
// 首次手動同步時鐘,避免首次ntpd服務因時間誤差過大致使沒法同步 vim /etc/ntp.conf server time.windows.com prefer // 添加時間同步服務器 service ntpd start && chkconfig ntpd on // 運行時間同步服務 ```

配置用於 cm-server 的 MySQL 服務器

該 MySQL 服務便可安裝在 cm-server 服務器上,也能夠與其餘服務共用

> rpm -qa | grep -i -E "mysql-libs|mariadb-libs"
> yum remove -y mysql-libs mariadb-libs && yum install -y -q crontabs postfix

> tar  xf  MySQL-5.6.35-1.el6.x86_64.rpm-bundle.tar
> rpm -ivh MySQL-client-5.6.35-1.el6.x86_64.rpm \
MySQL-shared-* \
MySQL-server-5.6.35-1.el6.x86_64.rpm \
MySQL-devel-5.6.35-1.el6.x86_64.rpm

安裝 MySQL-Server ```

wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.44.tar.gz tar xf mysql-connector-java-5.1.44.zip ``` 下載 mysql-connector.jar (用於安裝在 cm-server 服務器上)

> vim /etc/my.cnf [mysqld] character-set-server = utf8 // 初始密碼在 ~/.mysql-secret 文件之中> mysql -p`default_secret` sql_cli > SET PASSWORD = PASSWORD("new_secret") sql_cli > exit

安裝 Cloudera Manager Server 和 AgentServer

Cloudera Manager Server 安裝在 test6.lan AgentServer 在集羣內每臺主機均須要單獨安裝 下載地址:http://archive-primary.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.12.0x8664.tar.gz

配置 Server 端

cloudera-manager 下載完成後上傳到 test6.lan 便可 而後解壓到 /opt 目錄下(只能是該目錄下),由於cdh5的源會默認在 /opt/cloudera/parcel-repo 尋找

> tar xf cloudera-manager-el6-cm5.12.0_x86_64.tar.gz  -C /opt/

給集羣內全部節點添加 cloudera-scm 用戶 ```

useradd --system --home=/opt/cm-5.12.0/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm ```

在 cm-server 節點配置 mysql-connector-java,而且爲 Cloudera Manager 5 建立初始數據庫> cp /path/to/mysql-connector-java-5.1.44-bin.jar /opt/cm-5.12.0/share/cmf/lib/ 而後,建立初始數據庫(-psecret 爲數據庫對應帳戶的密碼) ```

/opt/cm-5.12.0/share/cmf/schema/scmpreparedatabase.sh mysql cm -hlocalhost -uroot -psecret --scm-host localhost scm scm scm ``` 見 Successfully connected to database. All done, you SCM database is configured correctly! 即庫結構表結構配置成功。

運行 Cloudera Manager 5 的 Server 端:

> /opt/cm-5.12.0/etc/init.d/cloudera-scm-server start

注意:首次運行 Server 端,會有大概5-10分鐘的數據初始化時間(服務端進程內存佔用大概1.5G左右),初始化完成後會有 java 程序監聽在 7180 7182 端口之上。

配置 Agent 端

在 Server 端修改 Agent 配置文件中 server_host 的主機地址

> vi /opt/cm-5.12.0/etc/cloudera-scm-agent/config.ini
server_host=test6.lan

在 Server 端複製 Agent 程序到集羣內全部節點 /opt/ 目錄下

> for i in {1..5}; do
    echo "--------- Start scp to test${i}.lan --------"
    scp -r -q /opt/cm-5.12.0/  test${i}.lan:/opt/
    echo "######### Done ##########"
done

等待複製成功,便可在 Agent 全部節點中啓動 Agent 程序

> /opt/cm-5.12.0/etc/init.d/cloudera-scm-agent start

Agent 端程序爲 Python 進程,會主動到配置文件中的 server_host 節點註冊信息,該 Agent 也是用於後續接受 Server 端發送的相關指令,以及心跳信息監控。

安裝 CDH

配置並分配 CDH5 parcel 包

須要單獨回到 test6.lan shell終端,配置 CDH5 的 parcel 包(cloudera 採用預編譯捆綁安裝包的方式,以支持 Hadoop 離線安裝)。 對應 CDH parcel 包下載地址爲:http://archive-primary.cloudera.com/cdh5/parcels/5.12.0/ ```

cd /opt/cloudera/parcel-repo curl -O http://fileserver.lan/CDH5/CDH5-5.12.0-1.cdh5.12.0.p0.29-el6.parcel curl -O http://fileserver.lan/CDH5/CDH5-5.12.0-1.cdh5.12.0.p0.29-el6.parcel.sha1 mv CDH5-5.12.0-1.cdh5.12.0.p0.29-el6.parcel.sha1 \ CDH5-5.12.0-1.cdh5.12.0.p0.29-el6.parcel.sha ``` 此處須要把對應 parcel 包的 sha1 文件更名爲 CDH5-5.12.0-1.cdh5.12.0.p0.29-el6.parcel.sha,否則 cm-server 識別不了該 parcel 包。

重啓 cloudera-scm-server 服務端

> /opt/cm-5.12.0/etc/init.d/cloudera-scm-server restart

打開 http://test6.lan:7180/ 開始安裝 CDH首次登錄頁默認登錄用戶名密碼爲 admin admin

贊成相關條款 安裝條款

選擇相關服務版本 服務版本

該版本相關服務包及信息 software list

添加集羣主機 select cluster node 此處有當前管理的主機(5) 表示 Agent 端註冊到 Server 端正常。 若是此處只有一個選項,即 新主機 ,那麼表示 Agent 註冊不正常,請檢查網絡或服務是否正常。 None 你亦能夠選擇經過指定主機名或IP的方式鏈接遠程節點。

選擇主機 node list

選擇集羣安裝的相關配套組件 parcel 包。 parcel info

開始集羣內節點的 parcel 包部署 gif

此圖最後的部署告警提示 cloudera-scm 用戶未建立,確實是節點忘記建立,用戶建立完畢後從新驗證便可。

部署信息概覽 parcel deploy infomation

安裝 Hadoop 集羣及相關組件

hadoop clusterCDH 官方有已經打包好的配套匹配方案,也能夠自行搭配組件

此處暫且選擇幾個組件,包括 HBase、HDFS、YARN 和 Zookeeper (Kafka屬於另一個單獨的parcel包提供,後面再單獨安裝) 60a4fcefgy1fj5tojt0saj20wl0man97.jpg

相關組件的配置參數 configure value

部署中....60a4fcefgy1fj5u2rdaadj20xp0jiwju.jpg

其中各相關服務組件在服務器文件系統中的安裝路徑以下 path

安裝完成 installed

瀏覽 CDH Web 端相關佈局

修改 NameNode 關於 Heapsize 大小的初始默認配置(推薦設置爲 1-4G 大小) web interface修改配置後,須要重啓服務,重啓服務後稍等片刻,等待服務的相關附屬子進程啓動完畢,告警即消失。 (修改 NameNode 的 Heapsize 大小,固然也須要修改 SecondaryNameNode 的 Heapsize)

安裝 Kafka 組件

配置並分配 Kafka parcel 包

在 Web 頁面中,主機 -> Parcel 裏面會列出當前集羣以配置和分配的 parcel 包,目前只配置了 CDH5,Kafka 單獨存在於其餘 parcel 包中,因此須要單獨加載 parcel ,而後分配到集羣內各節點。 enter p_w_picpath description here

Cloudera官方Kafka組件的parcel包下載地址爲:http://archive.cloudera.com/kafka/parcels/latest/ 照舊下載 percel 文件,以及該文件的 sha1 串,而後重命名 ***.sha1 爲 ***.sha 方可。

下載好以上兩個文件後,放到 cm-server 節點的 /opt/cloudera/parcel-repo/ 目錄下 60a4fcefgy1fj5umj4pybj210h0jadlz.jpg無需重啓 server 守護進程,在頁面便可在線刷新、分配、激活。

集羣內安裝 Kafka 服務

install kafka service這裏須要確認和修改 2 個默認配置

  • 複製進程,默認爲1,修改成 3(視業務量而定)

  • 分區數,默認分區數爲 50,這裏暫且保留。

  • 刪除舊topic,默認打開,不作更改。

業務端口爲 9092 。

配置 HDFS LZO 壓縮

配置並分配 LZO parcel 包

LZO 功能也是封裝在單獨的 parcel 包中,選擇對應平臺的包。 下載地址爲:http://archive-primary.cloudera.com/gplextras/parcels/latest/ 這裏並無直接的提供 sha 文件,因此須要查看 manifest.json 文件,找到對應 parcel 包的 hash 值,手動保存至本地文件便可。

下載 parcel 包及其 sha 文件,存放至 cm-server 的 /opt/cloudera/parcel-repo/ 目錄下。 同安裝 Kafka 捆綁包同樣,在頁面上便可完成刷新,註冊,分配,激活操做。 lzo parcel

激活好 LZO 以後,有幾個爲之依賴的服務會提示重啓載入新配置。 先別急重啓,還有幾個配置須要單獨手動修改。

HDFS 相關 LZO 配置

hdfs lzo configure 將 io.compression.codecs 新增一行,填入 com.Hadoop.compression.lzo.LzopCodec 保存配置。

YARN 相關 LZO 配置

MapReduce1將 mapreduce.application.classpath 的屬性值新增一行,填入 /opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

mapreduce2 將 mapreduce.admin.user.env 的屬性值,後補入 /opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native

保存,重啓相關依賴的服務便可。

相關服務最後預覽

enter p_w_picpath description here

相關文章
相關標籤/搜索