在互聯網行業,線上服務的升級更新可謂屢見不鮮。據統計,在過去的一個季度中閒魚工程師們執行了千餘次發佈,總計更新的代碼數量超過百萬行。算法
這些發佈中,有一些可能只更新了幾行代碼,而有一些可能執行了整個集羣的遷移升級。而不管這些變動的影響面有多大,咱們都必須保證線上服務的可用性,用戶無感知。本文將以閒魚搜索服務的遷移升級爲例,向你們介紹其背後的技術方案。數據庫
閒魚的底層搜索服務由查詢規劃服務 Search Planner、查詢理解服務 Query Planner、打分排序服務 Rank Service 以及搜索引擎 Heaven Ask 3 所組成。它們之間的相互調用關係以下圖所示:緩存
能夠看到,整個搜索服務是由多個相互獨立的微服務所構成的。不一樣的微服務之間相互隔離,經過預先向外暴露的接口提供服務。全部的微服務最終經過 Search Planner 收口,對外提供統1、完整的搜索能力。安全
在底層搜索服務之上,還有業務邏輯層和接入網關層,具體架構在此再也不贅述。用戶的搜索請求先經過網關層轉發給邏輯層處理,再向底層搜索服務發起搜索請求。這條請求鏈上包含數十個集羣,調用深度達到兩位數,整個過程當中提供服務的服務器數量可能有成百上千。服務器
對於這樣一個複雜的系統,升級過程顯然沒法一蹴而就。好消息是各個微服務之間合理的解耦合給升級工做帶來了很大的便利,有效避免牽一髮動全身而致使無從下手,使咱們能夠分門別類地處理升級問題。架構
開始升級以前,咱們首先須要確認被升級的服務是否保持了向前與向後兼容性。保持兼容不只減小了工做量,也減小了升級所致使的故障風險。負載均衡
爲了儘可能避免升級致使的不兼容,咱們能夠總結一些開發原則:框架
在升級時,先升級那些沒有外部依賴的服務。等到被依賴方升級完畢以後,再去升級依賴方。肯定了每個服務的升級順序以後,咱們再根據服務的實際狀況肯定升級方案。分佈式
正式進入升級流程,咱們首先關注搜索鏈路中的被設計成無狀態服務的部分,例如用於處理業務邏輯的 Java 微服務、用於處理查詢邏輯的 Search Planner 等。它們的共同特色是,每一個請求處理完畢以後,關於該次請求的資源即被釋放。不一樣的請求之間沒有相互依賴和時序要求。同一個無狀態服務內不一樣的機器節點是徹底等價的。函數
無狀態服務的特色使得它們很容易經過水平擴展來動態擴縮容。所以在保證兼容的前提下,它們的升級流程相對通用而且簡單:
通常來講咱們能夠經過把狀態存儲在消息隊列、緩存、數據庫或者其它外部中間件中來達成服務的無狀態。把服務設計成無狀態的好處顯而易見:升級時不須要分配額外的機器資源,升級速度快,變動代價小,於是能夠支持頻繁的迭代更新。可是,這種設計也給狀態訪問和更新帶來了額外的開銷,在某些性能敏感的場合多是不適用的。
咱們繼續關注有狀態的部分。有狀態服務升級的麻煩之處在於,狀態的存儲、恢復、轉移每每由服務根據實際狀況單獨設計(或者根本沒有設計),於是升級較爲困難。咱們能夠簡單列舉一些相對通用的有狀態服務升級可選方案。
在閒魚搜索的架構中,搜索引擎自己提供的雖然是無狀態服務,可是引擎內部保存了用於處理索引分區,增量進度的各類狀態。最終使用的升級方案以下:
和無狀態服務的升級相比,這種方式不只額外使用了一倍的機器資源,並且每次升級都須要作一次複雜而繁瑣的服務配置。若是服務自己不是無狀態的,還須要自行編碼實現切流邏輯,保證同一個用戶的請求可以落到同一個集羣上。總體升級成本較爲昂貴,只適合更新頻率很是低的服務。若是服務的更新頻率較高,則應該根據服務的實際狀況設計實現升級成本更低的方案。
在升級過程當中,服務發現機制承擔着重要做用。它爲咱們提供瞭如下功能:
服務發現是流量調控的總閥門。一個成熟穩定的服務發現機制不只能夠有效避免發佈致使的請求成功率抖動,也爲發生異常時快速回滾止血提供了保證。
對搜索鏈路的每個集羣按照依賴順序進行服務升級、掛載、切流無疑是高危操做,稍有不慎就可能引發線上故障。所以,咱們按照阿里巴巴安全生產三板斧原則對升級流程進行了梳理:
綜上所述,複雜系統不停機升級的原則和流程能夠歸納以下:
閒魚搜索服務升級的整個執行過程經歷了兩個月的時間。這其中咱們既保證了用戶無感知,線上服務穩定運行,也保證了與咱們合做開發的算法團隊以及其餘工程團隊的正常開發不受影響。
在實際執行的過程當中,咱們還遇到了不少細節上的問題。例如建立新服務時未能提早合理預估預算需求,致使升級過程當中不斷挪借預算,拆東牆補西牆。又好比異地多活部署帶來的延遲問題迫使服務保持單元化,給升級過程當中的流量調控工做帶來了不少挑戰。這些暴露的問題也爲咱們繼續完善架構和方案提供了指引。
做者:閒魚技術
轉載自公衆號
連接: https://mp.weixin.qq.com/s/Vc...