大規模機器集羣-基礎環境一致性

時間 2019-12-24

標籤大規模機器集羣基礎環境一致性欄目負載均衡简体版

原文原文鏈接

本篇講「故障自動維修流程」裏「環境初始化」這個環節。python

初始化的問題—環境不一致

可能你們會以爲，環境初始化有什麼好說的，不就是跑一堆設置系統參數的腳本麼? 事實上，設置環境很容易，可是要保證環境設置正確會遇到不少問題。mysql

先來看咱們對業務sre 的訪談，因「環境設置不正確」致使業務受損的case有不少，以下所示， sql

上述case，都是因部分機器環境未正確設置致使的，也就是機器環境存在「不一致」的狀況。

爲何會不一致？咱們分析了各個業務初始化腳本集合，獲得的結論是：「硬件/系統多樣、業務需求差別化、初始化流程不統一不規範」這3個因素綜合做用致使了「環境不一致」。

一、硬件/系統多樣

機器硬件不同，設置某個功能的命令是不同的。

好比開啓超線程，戴爾機器和惠普機器不同，這致使同一個功能，業務sre會寫出多個腳本, 例如 cpu_ht_dell.sh, cpu_ht_hp.sh；

一樣道理，系統發行版不同，開機啓動、參數文件位置、內核參數的設置方式有可能不同，對於同一個需求，就會存在多個腳本，長期下來，幾乎沒法維護。

二、業務需求差別化

不一樣的業務類型，一般會根據自身須要，調優設置各類參數。

如接入層機器，需設置tcp內核參數，包括緩衝區大小、擁塞窗口大小；

存儲層機器，需設置內核換頁、磁盤調度策略、shm參數；

計算密集型業務機器，需開啓超線程，QoS優先級設置爲高；

這些差別化的存在，使得各個業務sre小組都維護着一套本身的初始化腳本集合，很難共用、複用。

三、初始化流程不統1、不規範

業務sre執行初始化時，沒有統一規範，初始化的執行方式多樣(pssh/ansible/部署系統)，並且沒有強制性檢查。

因爲環境初始化失敗，不會影響服務的初期運行，只有在流量大的時候纔會出現問題，若是執行初始化的sre經驗不足或者不夠細心，這些「環境初始化失敗」的機器，也會投入使用，形成隱患。

在本身動手解決問題以前，咱們粗略地調研了業界的環境管理方案：puppet，存在如下問題，

puppet管理的資源中，有file, service, yum 等, 但不包括硬件，如BIOS、超線程、網卡多隊列; 另外，關於service 這個資源，涉及到版本問題，須要和部署系統聯動，puppet彷佛沒有提供相應的功能
puppet has its own configuration language, puppet 經過自成體系的配置語言來聲明資源，控制任務的執行，這對咱們來講是一個很大的學習成本，咱們須要的是：低成本地使用已經存在的上百個腳本，而不是用別的語言重寫它們。
puppet 是 C/S架構，意味着須要部署它本身的agent，在幾萬臺機器的集羣上部署一個新agent，風險性很高，須要經歷漫長的審覈、測試、運行驗證過程