做者 | 肖長軍(穹谷)阿里雲智能事業羣技術專家 node
導讀:隨着雲原生系統的演進,如何保障系統的穩定性受到很大的挑戰,混沌工程經過反脆弱思想,對系統注入故障,提早發現系統問題,提高系統的容錯能力。ChaosBlade 工具能夠經過聲明式配置執行混沌實驗,簡單高效。本文將會重點介紹 ChaosBlade 以及雲原生相關的實驗場景實踐。git
ChaosBlade 是阿里巴巴開源的一款遵循混沌實驗模型的混沌實驗執行工具,具備場景豐富度高、簡單易用等特色,並且能夠很方便的擴展實驗場景,開源後不久就被加入到 CNCF Landspace 中,成爲主流的一款混沌工具。github
目前支持的實驗場景以下:shell
以上全部的實驗場景都遵循混沌實驗模型,此模型共分爲四層,包含:json
好比一臺 IP 是 10.0.0.1 機器上的應用,調用 com.example.HelloService[@1.0.0 ]() Dubbo 服務延遲 3s,基於此模型能夠描述爲對 Dubbo 組件(Target)進行實驗,實驗實施的範圍是 10.0.0.1 主機(Scope),調用 com.example.HelloService[@1.0.0 ]() (Matcher)服務延遲 3s(Action),對應的 chaosblade 命令爲:api
blade create dubbo delay --time 3000 --service com.example.HelloService --version 1.0.0
因此此模型很簡單清晰的表達出實驗場景,易於理解。下文中的雲原生實驗場景也基於此模型定義。緩存
將混沌實驗場景按照上述的實驗模型,定義爲 Kubernetes 中的資源,並經過自定義控制器來管理,能夠經過 Yaml 配置或者直接執行 blade 命令執行。網絡
ChaosBlade Operator 定義了資源控制器,而且會以 daemonset 的方式,在每一個節點上部署一個 chaosblade-tool pod 來執行混沌實驗。不一樣的實驗場景內部實現方式不一樣,好比 Node 實驗場景,其上面部署的 chaosblade-tool 內部執行便可,而 Container 內的實驗場景,控制器會將 chaosblade 包拷貝到目標 Container 中執行。app
安裝 ChaosBlade Operator,可經過地址下載 chaosblade-operator-0.0.1.tgz,使用如下命令安裝:框架
helm install --namespace kube-system --name chaosblade-operator chaosblade-operator-0.0.1.tgz
安裝在 kube-system 命令空間下。ChaosBlade Operator 啓動後會在每一個節點部署 chaosblade-tool Pod 和一個 chaosblade-operator Pod。可經過如下命令查看安裝結果:
kubectl get pod -n kube-system -o wide | grep chaosblade
執行方式有兩種:
下面以指定一臺節點,作 CPU 負載 80% 實驗舉例。
yaml 配置方式
apiVersion: chaosblade.io/v1alpha1 kind: ChaosBlade metadata: name: cpu-load spec: experiments: - scope: node target: cpu action: fullload desc: "increase node cpu load by names" matchers: - name: names value: - "cn-hangzhou.192.168.0.205" - name: cpu-percent value: - "80"
如上所示,配置好文件後,保存爲 chaosblade_cpu_load.yaml,使用如下命令執行實驗場景:
kubectl apply -f chaosblade_cpu_load.yaml
可經過如下命令查看每一個實驗的執行狀態:
kubectl get blade cpu-load -o json
查看更多實驗場景配置事例。
blade 命令執行方式
下載 chaosblade 工具包,解壓便可使用。仍是上述例子,使用 blade 命令執行以下:
blade create k8s node-cpu fullload --names cn-hangzhou.192.168.0.205 --cpu-percent 80 --kubeconfig ~/.kube/config
使用 blade 命令執行,會返回實驗的執行結果。
yaml 配置文件的方式支持場景動態修改,好比將上述的 cpu 負載調整爲 60%,則只需將上述 value 的值從 80 改成 60 便可,例如:
apiVersion: chaosblade.io/v1alpha1 kind: ChaosBlade metadata: name: cpu-load spec: experiments: - scope: node target: cpu action: load desc: "cpu load" flags: - name: cpu-percent value: "60" - name: ip value: 192.168.0.34
而後使用 kubeclt apply -f chaosblade_cpu_load.yaml
命令執行更新便可。
能夠經過如下三種方式中止實驗:
根據實驗資源名中止
好比上述 cpu-load 場景,能夠執行如下命令中止實驗:
kubectl delete chaosblade cpu-load
經過 yaml 配置文件中止
指定上述建立好的 yaml 文件進行刪除,命令以下:
kubectl delete -f chaosblade_cpu_load.yaml
經過 blade 命令中止
此方式僅限使用 blade 建立的實驗,使用如下命令中止:
blade destroy <UID>
是執行 blade create 命令返回的結果,若是忘記,可以使用 blade status --type create 命令查詢。
執行 helm del --purge chaosblade-operator
卸載便可,將會中止所有實驗,刪除全部建立的資源。
ChaosBlade 基於混沌實驗模型,友好地將 Kubernetes 資源控制結合,部署簡單並且使用簡潔,實驗可控。除此以外 ChaosBlade 基於實驗模型實現了不少領域場景執行器,能夠很方便的擴展實驗場景,可詳見附錄中的項目列表。
ChaosBlade 自開源以來,共有近 30 多位貢獻者加入和不少企業的關注及使用,很是感謝各位。同時很是歡迎更多的人蔘與進來,使 ChaosBlade 變的更增強大,覆蓋更多的場景,成爲各個企業穩定的、通用的混沌工程工具。
貢獻的形式能夠是提 bug、提交代碼、編寫文檔、補充單元測試、參與問題討論等等。ChaosBlade 相信:開源世界中,任何幫助都是貢獻。
本文爲雲棲社區原創內容,未經容許不得轉載。