做者 | 殷銘 顏鋪科技架構師數據庫
本文整理自架構師成長系列 3 月 19 日直播課程。 關注「阿里巴巴雲原生」公衆號,回覆 「319」,便可獲取對應直播回放連接及 PPT 下載連接。小程序
**導讀:**顏鋪科技因美業⽽⽣,「顏鋪專家」是一款專爲美業商家打造的 SaaS 平臺,爲了可以給商戶提供更加安全、穩定、高效的平臺,咱們在技術方面作了不少嘗試,通過幾回演進,使系統變得更加穩定可靠。今天主要和你們分享一下顏鋪科技的架構演進,以及 Nacos 在顏鋪的應用實踐。後端
上圖是咱們單體服務時的架構圖,分爲會員、訂單、門店等不少模塊,看架構圖彷佛還算清晰,可是真正看到包結構的時候,真的使人頭禿!改起代碼特別頭痛。單體服務帶來的幾個挑戰:安全
**發佈週期慢:**雖然當時業務量不算大,可是代碼量很大,業務迭代牽一髮而動全身,每次發佈須要對整個服務進行從新編譯打包部署。特別是最開始在沒有構建工具的時候,發佈過程須要一堆的命令,總有一種 **「一頓操做猛如虎,定睛一看原地杵」 **的感受。性能優化
**協同效率低:**合併衝突多,有時你在前面開心地寫代碼,而別人在解決衝突時,可能也在開心地刪着你的代碼,增長了不少的溝通成本。服務器
**穩定性差:**當服務出現故障時,可能會致使整個系統不可用,而且系統不易擴容,當商戶搞促銷時,可能活動結束了,服務器尚未擴容完成。網絡
**性能差:**由於在單體服務內,有些開發人員爲了知足本身的業務,不少無關業務間 SQL 聯表查詢,而且不關注性能問題,致使線上時常出現負載警告。 架構
另外,咱們在業務上也遇到了一些挑戰:app
**業務轉型: **2018 年 6 月,咱們公司決定從泛行業轉向美業,須要打造一個專爲美業商戶提供技術支持的麗人 SaaS 平臺。框架
**快速佔領市場:**業務的轉型帶來了更多商戶的新需求,若是不能快速迭代,則意味着被市場淘汰。所以,提高開發效率,快速佔領市場成爲咱們急需解決的問題。
**商戶體驗差:**隨着愈來愈多的商戶入住,性能和可靠性的問題逐漸顯現,出現問題,不能及時修正,商戶體驗變得不好,違背咱們客戶第一的原則。
綜上所述,咱們認爲進行服務化改造刻不容緩。
通過公司開發同窗們的討論,咱們最終決定分兩步進行改造: 服務化改造 1.0 的目標:
服務化改造 2.0 的目標:初步建設業務中臺,讓平臺的各類能力可以快速複用、快速組合,支持業務更快捷地探索與發展。 服務化改造 1.0 預期效果:
所以,咱們的想法是:新商戶中心直接調用舊商戶中心經過 Controller 暴露出的接口,進行遠程調用,因而咱們決定嘗試使用 Spring Cloud 。
服務發現選型:
服務化改造 1.0 架構圖:
服務化 1.0 咱們的技術改造方案是:將舊的商戶中心註冊到 Consul 上面,新商戶中心到 Consul 上獲取服務器列表,經過 Feign 進行遠程調用,打通了新老商戶中心的功能。
通過服務化 1.0 的改造,咱們解決了以下幾個問題:
但服務化 1.0 改造後,仍是有一些挑戰沒有解決:
因而咱們決定開啓,服務化 2.0 的改造。 服務化改造 2.0 的預期效果:
首先,註冊中心我認爲應該具有的基本功能 :
Zookeeper :
Nacos :
在此期間,咱們也關注到了 Spring Cloud Alibaba。阿里巴巴技術經受多年「雙十一」的考驗,其性能和穩定性是值得信任的。Spring Cloud Alibaba 的組件開源社區活躍度很高,而且比起國外開源項目更容易交流。其組件由 Java 語言開發,對咱們來講更易維護,在出現問題時可以更快地定位問題進行修復。並且與阿里雲配合,更加容易上雲,好比 Nacos 能夠與阿里雲的 MSE 和 ACM 配合,將註冊中心及配置管理所有上雲。
所以,咱們決定擁抱阿里技術棧。
服務化改造2.0架構圖:
咱們將以前的模塊直接抽到基礎服務之中,新增了 會員、訂單、門店 等服務做爲Provider,暴露本身的Service,並註冊到 Nacos 上。新商戶中心服務作美業業務邏輯的處理,舊商戶中心服務作泛行業的業務處理,C端服務同理對外提供服務。經過 Dubbo 進行遠程調用。
經過服務化 2.0 的改造,效果以下:
Nacos 在咱們公司處理作註冊中心以外,配置管理也對咱們提供了很好的服務。下面說一下,Nacos 咱們的使用狀況,以及咱們遇到的問題。
首先是使用狀況:
Nacos 註冊中心:
Nacos 配置管理:
每一個服務設置獨立的 Namespace 。
問題描述:
2019 年 12 月 31 日,下午 3 點 15 分左右,線上忽然出現大量服務告警,Dubbo 服務出現報錯,整個過程持續約 3 多分鐘。各個業務組當天均沒有任何發佈,數據庫狀態也良好。
經過日誌發現,報錯緣由是門店服務沒法調用。而門店服務日誌,出現問題的時間段內,沒有任何的調用記錄。系統恢復正常時,出現了不少服務註冊的通知。
所以,咱們將問題瞄準了 Nacos。查看 Nacos 的日誌發現,在系統恢復過程當中,有大量的服務正在上線。
就在排查的過程當中,線上忽然又出現了以前相同的告警,Nacos 上的服務列表開始大量變成不健康的狀態,因而咱們緊急重啓了線上的 Nacos ,在這期間又經歷了一個 3 分多鐘的驚魂後,再次恢復了平靜。
問題分析:
綜上,咱們開始懷疑是網絡緣由形成的。
問題確認:
通過排查,發現咱們的服務大多部署在 阿里雲華東 1 可用區 B ,只有門店服務和 Nacos 集羣沒有部署在可用區 B ,說明這段時間可用區 B 與其餘區之間的發生了網絡隔離。
因而,咱們在可用區 B 緊急部署了門店服務,以後沒有再出現問題。
通過與阿里雲的溝通確認於北京時間 2019 年 12 月 31 日 14:05 分左右開始,部分用戶反饋阿里雲華東 1 地域可用區 B 部分網絡出現異常,影響部分雲資源訪問。
問題覆盤:
問題思考:
回顧與展望:
「顏鋪專家」通過不斷地快速迭代,幫助美業商家⾼效快捷地管理門店,進行經營數據分析,數據化管理門店,建⽴完善的會員週期管理體系,爲美業商家在經營管理中,提供⼀體化的解決方案,將美業傳統的門店經營模式進⾏互聯網升級。截止到目前咱們累計服務 3000 多個品牌,1.1W + 個⻔店。咱們提供了店務管理系統、會員管理系統、營銷拓客系統、大數據決策系統、供應鏈管理系統、員工績效管理系統6⼤系統能力,同時⽀持 PC 端、手機 APP 、 pos 機、 iPad 操做,滿⾜⻔店多端操做需求,覆蓋⻔店經營管理中的全部場景需求。
提高系統高可用
**Seata :**目前咱們公司的分佈式事務主要依賴 MQ 的補償,今年準備引入 Seata 來完善分佈式事務,保證數據一致性,減小開發修數據的狀況;
**Sentinel :**目前 Sentinel 咱們只是在商戶作活動時啓用,所以咱們要配置出適用於咱們公司的最佳實踐,保證系統的高可用;
**全鏈路跟蹤:**咱們公司如今定位問題主要靠日誌和告警,作不到全鏈路的跟蹤,因此咱們要把這部分作好,作到故障快速定位,各調用環節性能分析,以及數據分析;
**異地容災:**隨着來自全國各省的商戶愈來愈多,咱們須要對商戶的數據保障,避免數據丟失,確保服務的可靠性。
社區回饋
由於咱們的公司體量如今不大,咱們可以作到的是儘量地使用最新的版本,及時嘗試新特性,對發現的問題提 issues,但咱們也但願可以對 Nacos 開源社區盡一份咱們的力量。
**做者信息:**殷銘,顏鋪科技架構師,負責顏鋪 SAAS 平臺中間件的應用和實踐,主導了平臺架構在顏鋪向分佈式演進的全過程,目前也負責大數據在顏鋪平臺的實踐和落地。
「阿里巴巴雲原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,作最懂雲原生開發者的公衆號。」