螞蟻金服 Service Mesh 大規模落地系列 - 運維篇

時間 2019-12-29

標籤螞蟻 service mesh 大規模落地系列简体版

原文原文鏈接

本文爲《螞蟻金服 Service Mesh 大規模落地系列》運維篇，該系列將會從核心、RPC、消息、無線網關、控制面、安全、運維、測試等模塊對 Service Mesh 雙十一大規模落地實踐進行詳細解析。前端

引言

Service Mesh 是螞蟻金服下一代架構的核心，也是螞蟻金服內部向雲原生演進的重要一環。本文爲 Service Mesh 系列文章的運維篇，做者：黃家琦（花名：嘉祁），螞蟻金服運維專家，Service Mesh SRE，主要關注雲原生基礎設施、中間件及 Service Mesh 的穩定性，同時也是 Pythoner，sofa-bolt-python 做者。python

本文將主要分享大規模服務網格在螞蟻金服當前體量下落地到支撐螞蟻金服雙十一大促過程當中，運維角度所面臨的挑戰與演進。內容包括雲原生化的選擇與問題，對資源模型的挑戰，大規模下運維設施的演進，以及周邊技術風險能力的建設。git

Service Mesh 在2019年獲得了大規模的應用與落地，截止目前，螞蟻金服的 Service Mesh 數據平面 MOSN 已接入應用數百個，接入容器數量達數十萬，是目前已知的全世界最大的 Service Mesh 集羣。同時，在剛剛結束的雙十一大促中，Service Mesh 的表現也十分亮眼，RPC 峯值 QPS 達到了幾千萬，消息峯值 TPS 達到了幾百萬，且引入 Service Mesh 後的平均 RT 增加幅度控制在 0.2 ms 之內。github

擁抱雲原生

Service Mesh 在軟件形態上，是將中間件的能力從框架中剝離成獨立軟件。而在具體部署上，保守的作法是以獨立進程的方式與業務進程共同存在於業務容器內。咱們在螞蟻金服內部的作法，則從開始，就選擇了擁抱雲原生。後端

Sidecar 模式

業務容器內獨立進程的好處在於與傳統的部署模式兼容，易於快速上線；但獨立進程強侵入業務容器，對於鏡像化的容器更難於管理。而云原生化，則能夠將 Service Mesh 自己的運維與業務容器解耦開來，實現中間件運維能力的下沉。在業務鏡像內，僅僅保留長期穩定的 Service Mesh 相關 JVM 參數，從而僅經過少許環境變量完成與 Service Mesh 的聯結。同時考慮到面向容器的運維模式的演進，接入 Service Mesh 還同時要求業務完成鏡像化，爲進一步的雲原生演進打下基礎。安全

優劣網絡

獨立進程架構

兼容傳統的部署模式侵入業務容器app
改形成本低鏡像化難於運維負載均衡
快速上線

Sidecar

面向終態依賴 K8s 基礎設施
運維解耦運維環境改形成本高

應用須要鏡像化改造

在接入 Service Mesh 以後，一個典型的 POD 結構可能包含多個 Sidecar：

MOSN：RPC Mesh, MSG Mesh, ...（擴展中）；
其它 Sidecar；

MOSN：https://github.com/sofastack/sofa-mosn

這些 Sidecar 容器，與業務容器共享相同的網絡 Namespace，使得業務進程能夠以本地端口訪問 Service Mesh 提供的服務，保證了與保守作法一致的體驗。

基礎設施雲原生支撐

咱們也在基礎設施層面同步推動了面向雲原生的改造，以支撐 Service Mesh 的落地。

業務全面鏡像化

首先是在螞蟻金服內部推動了全面的鏡像化，咱們完成了內部核心應用的全量容器的鏡像化改造。改造點包括：

基礎鏡像層面增長對於 Service Mesh 的環境變量支撐；
應用 Dockerfile 對於 Service Mesh 的適配；
推動解決了存量先後端分離管理的靜態文件的鏡像化改造；
推動了大量使用前端區塊分發的應用進行了推改拉的改造；
大批量的 VM 模式的容器升級與替換；

容器 POD 化

除了業務鏡像層面的改造，Sidecar 模式還須要業務容器所有跑在 POD 上，來適應多容器共享網絡。因爲直接升級的開發和試錯成本很高，咱們最終選擇將接入 Service Mesh 的數百個應用的數萬個非 K8s 容器，經過大規模擴縮容的方式，所有更換成了 K8s PODs。

通過這兩輪改造，咱們在基礎設施層面同步完成了面向雲原生的改造。

資源的演進

Sidecar 模式的帶來一個重要的問題，如何分配資源。

理想比例的假設

最初的資源設計基於內存沒法超賣的現實。咱們作了一個假設：

MOSN 的基本資源佔用與業務選擇的規格同比例這一假設。

CPU 和 Memory 申請與業務容器相應比例的額外資源。這一比例最後設定在了 CPU 1/4，Memory 1/16。

此時一個典型 Pod 的資源分配以下圖示：

這一方式帶來了兩個問題：

螞蟻金服已經實現了業務資源的 Quota 管控，但 Sidecar 並不在業務容器內，Service Mesh 容器成爲了一個資源泄漏點；
業務不少樣，部分高流量應用的 Service Mesh 容器出現了嚴重的內存不足和 OOM 狀況；

完美分割的不完美

不止於此，爲了快速支撐 Service Mesh 在非雲環境的鋪開，上線了原地接入 Service Mesh。而原地接入 Service Mesh 的資源沒法額外分配，在內存不能超賣的狀況下，採起了二次分割的分配方式。此時的 POD 內存資源被切分爲1/16內存給 Sidecar，與15/16給業務容器。除了以上兩個問題，還帶來一些新的問題：

業務可見內存不一致，業務監控誤差，業務進程 OOM 風險。

討論以後，咱們追加了一個假設：

Service Mesh 容器佔用的資源實質是在接入 Service Mesh 以前業務已使用的資源。接入 Service Mesh 的過程，同時也是一次資源置換。

共享

基於這個假設，推動了調度層面支持 POD 內的資源超賣，新的資源分配方案以下圖，Service Mesh 容器的 CPU、MEM 都從 POD 中超賣出來，業務容器內仍然能夠看到所有的資源。

考慮到內存超賣也引入了 POD OOM 的風險，所以對於 Sidecar 容器還調整了 OOM Score，保證在內存不足時，Service Mesh 進程可以發揮啓動比 Java 業務進程更快的優點，下降影響。

新的分配方案解決了同時解決了以上兩個問題，而且平穩支持了大促前的多輪壓測。

重建

但新的分配方案上線時，Service Mesh 已經在彈性建站時同步上線。同時咱們還發如今一些場景下，Service Mesh 容器沒法搶佔到 CPU 資源，致使業務 RT 出現了大幅抖動，緣由是在 CPU Share 模式下，POD 內默認並無等額的分配 CPU Quota 給 Sidecar。

因而還有兩個問題待解決：

存量的已分配 Sidecar 仍有 OOM 風險；
Sidecar 沒法搶佔到 CPU；

咱們已經沒法承受更換所有 POD 的代價。最終在調度的支持下，經過對 Pod Annotation 的手動從新計算+修改，在 POD 內進行了所有資源的重分配，來修復這兩個風險。最終的修復容器總數約 25w 個。

變動與規模化下的運維挑戰

Service Mesh 的變動包括了接入與升級，全部變動底層都是由 Operator 組件來接受上層寫入到 POD annotation 上的標識，對相應 POD Spec 進行修改來完成，這是典型的雲原生的方式。因爲螞蟻金服的資源現狀與運維須要，又發展出了原地接入與平滑升級。與 Operator 有關的具體細節在 Operator 篇中會詳細介紹，請持續關注本公衆號。

接入

最初的 Service Mesh 接入只提供了建立時注入 Sidecar。以後引入原地接入的緣由，是爲了支撐大規模的快速接入與回滾。

建立接入：

資源替換過程須要大量 Buffer；

回滾困難；

原地接入：

不須要從新分配資源；

可原地回滾；

原地接入/回滾須要對 POD Spec 進行精細化的修改，實踐中發現了不少問題，當前能力只作了小範圍的測試。

升級

Service Mesh 是深度參與業務流量的，所以最初的 Sidecar 的升級方式也須要業務伴隨重啓。看似簡單的這個過程當中，咱們也遇到了一個嚴重問題：

Pod 內的容器啓動順序隨機致使業務沒法啓動。

這個問題最終依賴於調度層修改了啓動邏輯，POD 內須要優先等待全部 Sidecar 啓動完成，因而帶來第二個問題：

Sidecar 啓動慢了，上層超時。

此問題仍在解決中。

Sidecar 中，MOSN 提供了更爲靈活的平滑升級機制：由 Operator 控制啓動第二個 MOSN Sidecar，完成鏈接遷移，再退出舊的 Sidecar。小規模測試顯示，整個過程業務能夠作到流量不中斷，幾近無感。目前平滑升級一樣涉及到 POD Spec 的大量操做，考慮到大促前的穩定性，目前此方式未作大規模使用。