騰訊雲推出雲原生etcd服務

背景

騰訊雲容器服務TKE從2016年提供服務至今,已服務成千上萬企業構建其容器化平臺, 一方面,騰訊雲容器團隊在提供容器服務時積累並完善了一套萬級K8s集羣的etcd管理平臺,用於支撐騰訊雲容器產品穩定運行,該平臺同時也支撐了騰訊內部業務如雲監控,api網關,歡樂遊戲等,另外一方面,咱們積極參與etcd社區,將咱們大規模實踐過程當中遇到的問題和解決方案,反饋和貢獻給社區,是社區2020年最活躍的貢獻團隊之一。後端

容器團隊在屢次客戶訪談中瞭解到,不少客戶不想本身運維etcd,指望可以使用騰訊雲容器服務內部etcd平臺的能力和經驗。 所以咱們推出了騰訊雲原生etcd服務。api

騰訊雲原生etcd服務介紹

etcd是什麼

etcd是一個分佈式、高可靠的鍵值存儲,能夠容忍集羣中部分節點故障,只要有一半以上節點存活便可對外提供服務。主要用於元數據存儲,服務發現,分佈式選舉等場景,如Kubernetes,CoreDNS等。基於etcd提供的Watch機制,能夠很方便的實現發佈訂閱等功能。
安全

爲何要推出etcd服務

容器團隊在拜訪客戶時瞭解到,不少客戶因爲對etcd瞭解程度不夠,致使在實際使用和運維過程當中出現過不少問題。 例若有些客戶使用了v3的api寫數據卻使用了v2的api進行數據備份,還有些客戶由於集羣恢復時參數指定的有問題致使集羣沒法正常重建,從而影響業務恢復,更有甚者,由於自動壓縮參數配置的有問題而頻繁的使用defrag進行碎片整理,還有不少業務由於使用姿式的問題致使etcd性能嚴重降低,頻繁leader選舉,間接形成業務不可用,數據丟失等。性能優化

此外,用戶自建etcd每每還須要本身再維護一套etcd監控告警系統和備份恢復機制,增長了運維負擔,自建etcd集羣容易疏忽監控和備份機制,每每出了問題以後才後知後覺。雖然目前業界已經有了不少基於K8s的etcd管理方案,必定程度上減輕了運維負擔,如etcd-operator(目前已再也不維護),基於helm部署的etcd等,但這些項目在可用性和易用性上並無保障,出了問題以後每每更難恢復。app

騰訊雲容器團隊目前線上運維了上萬套K8s集羣,後端使用了上千套etcd集羣做爲支撐存儲,在保障etcd穩定運營的過程當中,咱們遇到過不少問題,也所以積累了大量的實踐經驗,並孵化出了一套自動化etcd管理平臺:包含完善的監控告警,備份恢復和容災機制,強大的巡檢能力可以幫助咱們進行熱點數據分析,混沌工程幫助咱們主動發現一些隱藏的bug,可控的變動和升級機制可以讓咱們針對問題版本進行快速升級。運維

目前咱們已經在騰訊內部爲多個業務團隊提供etcd服務,保障業務快速上線和穩定運營。 爲服務更多客戶,咱們推出了雲原生etcd產品服務,將咱們內部的能力提供出來,衷心指望可以幫您解決etcd的運維負擔。分佈式

騰訊雲原生etcd服務介紹

騰訊雲容器團隊提供的雲原生etcd服務能夠幫助您:性能

  • 一鍵部署經騰訊內部大規模驗證的高可靠高性能etcd集羣,支持跨可用區容災能力、專業團隊爲您提供最優化的性能配置。
  • 集成雲原生監控能力,提供完善的監控和告警機制
  • 提供etcd平常運維管理能力:測試

    • 備份恢復:支持自動備份和手動備份、災難狀況能夠選擇從備份恢復集羣
    • 配置升降、集羣擴縮容:藉助騰訊雲上計算存儲資源,您能夠方便快速調整etcd集羣配置和節點個數
    • etcd版本升級:幫助您快速安全地跟進社區bugfix版本更新,版本上線前會通過內部大規模場景驗證,避免因etcd自身bug形成隱患。
一鍵部署etcd集羣

集成雲原生監控

除原生指標外,集成雲原生監控還同時支持擴展的巡檢指標,如數據一致性巡檢,集羣健康探測,業務寫QPS巡檢等。優化

etcd集羣管理

騰訊雲原生etcd服務產品優點

易用使用的託管部署

您能夠在騰訊雲容器服務控制檯一鍵建立高可靠,高性能etcd集羣, 便可在幾分鐘內啓動一個可投入生產的etcd集羣。底層資源基於K8s部署,經過operator進行管理,支持將節點打散到不一樣的可用區,在3個可用區的狀況下,單可用區掛掉不影響集羣正常服務,節點掛掉以後能夠快速自愈,最大程度下降不可用時間。數據持久化存儲於騰訊云云硬盤,具有多副本的容災能力。您不須要過多關注etcd的各項複雜參數,咱們會根據您的集羣配置,自動適配到合適的參數配置。

安全的數據訪問

支持開啓https雙向認證及鑑權,數據訪問更加安全。支持經過安全組來限制訪問來源。

完善的數據備份/恢復

您能夠在控制檯建立集羣時或集羣建立完成後設置etcd的備份策略,支持定時的將數據備份到騰訊雲對象存儲COS服務,您也能夠手動來觸發備份。在集羣數據異常須要回滾的狀況下,能夠經過COS備份來恢復集羣。

全面的監控告警

無縫對接騰訊雲原生監控服務(託管prometheus服務),默認提供您須要關注的各項性能指標和可用性指標,您也能夠自行聚合須要的監控指標和麪板,幫助您更好的監控etcd集羣狀態。

熱點數據分析

除默認的監控能力外,咱們額外提供了熱點數據分析和慢查詢分析能力,能夠幫助您更好的分析異常請求來源,及時發現問題並進行優化。

完善的保障機制

雲原生etcd服務的高可靠性讓您能夠放心將數據放在雲端,無需擔憂數據丟失,也簡化了傳統運維工做中爲保障數據高可靠帶來的額外工做量和額外的 IT 投入成本。

可靠的版本驗證和更新機制

版本上線前會通過完善的內部測試和大規模驗證,經過混沌工程進行故障演練,保證版本的穩定性。

全流程的運維服務

您無需關心雲原生etcd服務的安裝、部署、版本更新及故障處理,容器團隊爲您免除後顧之憂。

內測邀請

咱們誠摯邀請您參與騰訊雲原生etcd服務的內測, 您能夠經過如下連接提交內測申請:https://cloud.tencent.com/app...

附錄:

《三年之久的 etcd3 數據不一致 bug 分析》

《萬級K8s集羣背後etcd穩定性及性能優化實踐》

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公衆號,及時獲取更多幹貨!!
相關文章
相關標籤/搜索