yarn默認只管理內存資源,雖然也能夠申請cpu資源,可是在沒有cpu資源隔離的狀況下效果並非太好.在集羣規模大,任務多時資源競爭的問題尤其嚴重. 還好yarn提供的LinuxContainerExecutor能夠經過cgroup來隔離cpu資源html
cgroup是系統提供的資源隔離功能,能夠隔離系統的多種類型的資源,yarn只用來隔離cpu資源node
默認系統已經安裝了cgroup了,若是沒有安裝能夠經過命令安裝linux
yum install -y libcgroup
而後經過命令啓動apache
/etc/init.d/cgconfig start
查看/cgroup
目錄,能夠看到裏面已經建立了一些目錄,這些目錄就是能夠隔離的資源centos
drwxr-xr-x 2 root root 0 3月 19 20:56 blkio drwxr-xr-x 3 root root 0 3月 19 20:56 cpu drwxr-xr-x 2 root root 0 3月 19 20:56 cpuacct drwxr-xr-x 2 root root 0 3月 19 20:56 cpuset drwxr-xr-x 2 root root 0 3月 19 20:56 devices drwxr-xr-x 2 root root 0 3月 19 20:56 freezer drwxr-xr-x 2 root root 0 3月 19 20:56 memory drwxr-xr-x 2 root root 0 3月 19 20:56 net_cls
若是目錄沒有建立能夠執行安全
cd / mkdir cgroup mount -t tmpfs cgroup_root ./cgroup mkdir cgroup/cpuset mount -t cgroup -ocpuset cpuset ./cgroup/cpuset/ mkdir cgroup/cpu mount -t cgroup -ocpu cpu ./cgroup/cpu/ mkdir cgroup/memory mount -t cgroup -omemory memory ./cgroup/memory/
經過cgroup隔離cpu資源的步驟爲服務器
mkdir
命令便可. 組下面還能夠建立下級組.最終能夠造成一個樹形結構來完成複雜的資源隔離方案. 每當建立了一個組,系統會自動在目錄當即建立一些文件,資源控制主要就是經過配置這些文件來完成--w--w--w- 1 root root 0 3月 19 21:09 cgroup.event_control -rw-r--r-- 1 root root 0 3月 19 21:09 cgroup.procs -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_period_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.cfs_quota_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_period_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.rt_runtime_us -rw-r--r-- 1 root root 0 3月 19 21:09 cpu.shares -r--r--r-- 1 root root 0 3月 19 21:09 cpu.stat -rw-r--r-- 1 root root 0 3月 19 21:09 notify_on_release -rw-r--r-- 1 root root 0 3月 19 21:09 tasks
yarn默認使用hadoop-yarn
組做爲最上層,任務運行時yarn會爲每一個container在hadoop-yarn
裏面建立一個組 yarn主要使用cpu.cfs_quota_us
cpu.cfs_period_us
cpu.shares
3個文件 yarn使用cgroup的兩種方式來控制cpu資源分配dom
tasks
文件便可,若是須要解除限制,在tasks
文件刪除便可啓動cgroup須要配置幾個配置文件oop
能夠參考http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 配置 這些配置大部分都是固定配置測試
<property> <name>yarn.nodemanager.container-executor.class</name> <value>org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor</value> </property> <property> <name>yarn.nodemanager.linux-container-executor.resources-handler.class</name> <value>org.apache.hadoop.yarn.server.nodemanager.util.CgroupsLCEResourcesHandler</value> </property> <property> <description>yarn使用的cgroup組,默認爲/hadoop-yarn</description> <name>yarn.nodemanager.linux-container-executor.cgroups.hierarchy</name> <value>/hadoop-yarn</value> </property> <property> <description>是否自動掛載cgroup</description> <name>yarn.nodemanager.linux-container-executor.cgroups.mount</name> <value>true</value> </property> <property> <description>cgroup掛載目錄, /sys/fs/cgroup 或者是 /cgroup,目錄和系統有關</description> <name>yarn.nodemanager.linux-container-executor.cgroups.mount-path</name> <value>/cgroup</value> </property> <property> <name>yarn.nodemanager.linux-container-executor.group</name> <value>hadoop</value> </property> <property> <description>配置nodemanager使用多少物理cpu資源,好比24核服務器配置90的話,最近使用21.6核</description> <name>yarn.nodemanager.resource.percentage-physical-cpu-limit</name> <value>90</value> </property> <property> <description>是控制是否嚴格限制cpu,即按任務申請的core限制,仍是非嚴格限制,即按core的比率限制</description> <name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name> <value>true</value> </property> <property> <description>非安全模式將會以這裏設置的用戶運行container,好比配置hadoop用戶則以hadoop運行container</description> <name>yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user</name> <value>hadoop</value> </property>
這個配置文件每項都須要填,要否則會報錯
yarn.nodemanager.linux-container-executor.group=hadoop banned.users=root min.user.id=1000 allowed.system.users=hadoop
在配置中文件的權限有特殊要求
chown root:hadoop bin/container-executor chmod 6050 bin/container-executor
系統還要求etc/hadoop/container-executor.cfg
的全部父目錄(一直到/
目錄) owner 都爲 root 這個路徑是默認${HADOOP_HOME}/etc/hadoop/container-executor.cfg
,若是不方便修改全部父級目錄爲root
權限,能夠從新編譯代碼到其餘目錄,好比/etc/hadoop/
目錄
mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative
配置好之後檢測是否配置成功
./bin/container-executor --checksetup
若是沒有任何輸出表示配置成功 若是一切順利就能夠啓動集羣了
能夠運行測試腳本測試系統
./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --deploy-mode cluster \ --num-executors 5 \ --executor-cores 3 \ --executor-memory 4G \ --driver-memory 4G \ --driver-cores 2 \ lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000``` 查看系統是否生效只能登陸到服務器查看 經過`top`查看信息 ![](http://upload-images.jianshu.io/upload_images/1439367-810b62ff2e95679d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 查看是否建立了cgroup分組,`ll /cgroup/hadoop-yarn/`
--w--w--w- 1 root root 0 3月 17 15:44 cgroup.event_control -rw-r--r-- 1 root root 0 3月 17 15:44 cgroup.procs drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000011 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000026 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000051 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000076 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000101 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000123 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000136 drwxr-xr-x 2 root root 0 3月 17 16:06 container_1489736876249_0003_01_000155 drwxr-xr-x 2 root root 0 3月 17 16:30 container_1489736876249_0004_01_000008 -rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_period_us -rw-r--r-- 1 root root 0 3月 17 15:47 cpu.cfs_quota_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_period_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.rt_runtime_us -rw-r--r-- 1 root root 0 3月 17 15:44 cpu.shares -r--r--r-- 1 root root 0 3月 17 15:44 cpu.stat -rw-r--r-- 1 root root 0 3月 17 15:44 notify_on_release -rw-r--r-- 1 root root 0 3月 17 15:44 tasks
查看`container_*`目錄下 `cpu.cfs_period_us`,計算` cpu.cfs_quota_us/cpu.cfs_period_us`便可知道分配的核數
[root@- ~]# cat /cgroup/cpu/hadoop-yarn/container*/cpu.cfs_period_us 462962 462962 462962 462962 462962 462962 462962 462962 308641
## 問題處理 配置的過程當中免不了會碰上一些問題,如下是我碰到的問題 ### spark任務申請了core,`node manager`分配不正確,都是分配1個核 這個是因爲目前使用的`capacity scheduler`的資源計算方式只考慮了內存,沒有考慮CPU 這種方式會致使資源使用狀況統計不許確,好比一個saprk程序啓動命令資源參數以下
--num-executors 1 --executor-cores 3 --executor-memory 4G --driver-memory 4G --driver-cores 1
DefaultResourceCalculator 統計佔2核 DominantResourceCalculator 統計佔4核 修改配置文件便可解決
<property> <name>yarn.scheduler.capacity.resource-calculator</name> <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> <description> The ResourceCalculator implementation to be used to compare Resources in the scheduler. The default i.e. DefaultResourceCalculator only uses Memory while DominantResourceCalculator uses dominant-resource to compare multi-dimensional resources such as Memory, CPU etc. </description> </property> ``` ### container-executor運行時報缺乏GLIBC_2.14庫 ``` container-executor: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by bin/container-executor) ``` 這個和系統版本有關,只能經過從新編譯`container-executor`來解決 ``` mvn clean package -Dcontainer-executor.conf.dir=/etc/hadoop/ -DskipTests -Pnative ``` ### centos 7系統container啓動報錯,不能寫入/cgroup/cpu 這個是yarn在centos 7下的一個bug,hadoop 2.8之後的版本纔會解決 這個bug主要是由於centos 7下cgroup的目錄和centos 6不一致致使,centos 7 cpu目錄合併成`cpu,cpuacct`, 這個`,`致使的錯誤,須要打補丁後編譯 https://issues.apache.org/jira/browse/YARN-2194
private String findControllerInMtab(String controller, Map<String, List<String>> entries) { for (Entry<String, List<String>> e : entries.entrySet()) { // if (e.getValue().contains(controller)) // return e.getKey(); if (e.getValue().contains(controller)) { String controllerKey = e.getKey(); // In Redhat7, the controller is called "/sys/fs/cgroup/cpu,cpuacct" controllerKey = controllerKey.replace("cpu,cpuacct", "cpu"); if (new File(controllerKey).exists()) { return controllerKey; } } } return null; }
因爲改變了資源的隔離方式,升級可能有幾個方面的影響
升級cgroup後單個任務若是之前資源分配不合理可能會出現計算延時狀況,出現資源問題時須要調整任務資源 在集羣規模小的時候可能沒有資源能夠調整,那麼能夠修改成非嚴格模式,非嚴格模式不能按配置限制資源,只能保證資源不被少數進程所有佔用
<property> <name>yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage</name> <value>false</value> </property
spark任務的driver在集羣模式deploy-mode cluster
時,若是沒有配置driver-cores
的話默認分配1核,1核在任務規模大時有可能資源會緊張.採用deploy-mode client
模式的不受cgroup限制