本文做爲系列的第一篇正文,從Spring Cloud中的核心項目Spring Cloud Netflix入手,闡述了Spring Cloud Netflix的優點,介紹了Spring Cloud Netflix進行服務治理的技術原理。git
對於微服務的治理而言,核心就是服務的註冊和發現。因此選擇哪一個組件,很大程度上要看它對於服務註冊與發現的解決方案。在這個領域,開源架構不少,最多見的是Zookeeper,但這並非一個最佳選擇。github
在分佈式系統領域有個著名的CAP定理:C——數據一致性,A——服務可用性,P——服務對網絡分區故障的容錯性。這三個特性在任何分佈式系統中不能同時知足,最多同時知足兩個。緩存
Zookeeper是著名Hadoop的一個子項目,不少場景下Zookeeper也做爲Service發現服務解決方案。Zookeeper保證的是CP,即任什麼時候刻對Zookeeper的訪問請求能獲得一致的數據結果,同時系統對網絡分割具有容錯性,可是它不能保證每次服務請求的可用性。從實際狀況來分析,在使用Zookeeper獲取服務列表時,若是zookeeper正在選主,或者Zookeeper集羣中半數以上機器不可用,那麼將就沒法得到數據了。因此說,Zookeeper不能保證服務可用性。服務器
誠然,對於大多數分佈式環境,尤爲是涉及到數據存儲的場景,數據一致性應該是首先被保證的,這也是zookeeper設計成CP的緣由。可是對於服務發現場景來講,狀況就不太同樣了:針對同一個服務,即便註冊中心的不一樣節點保存的服務提供者信息不盡相同,也並不會形成災難性的後果。由於對於服務消費者來講,能消費纔是最重要的——拿到可能不正確的服務實例信息後嘗試消費一下,也好過由於沒法獲取實例信息而不去消費。因此,對於服務發現而言,可用性比數據一致性更加劇要——AP賽過CP。而Spring Cloud Netflix在設計Eureka時遵照的就是AP原則。網絡
Eureka自己是Netflix開源的一款提供服務註冊和發現的產品,而且提供了相應的Java封裝。在它的實現中,節點之間是相互平等的,部分註冊中心的節點掛掉也不會對集羣形成影響,即便集羣只剩一個節點存活,也能夠正常提供發現服務。哪怕是全部的服務註冊節點都掛了,Eureka Clients上也會緩存服務調用的信息。這就保證了咱們微服務之間的互相調用是足夠健壯的。架構
除此以外,Spring Cloud Netflix背後強大的開源力量,也促使咱們選擇了Spring Cloud Netflix:app
Spring Cloud Netflix的核心是用於服務註冊與發現的Eureka,接下來咱們將以Eureka爲線索,介紹Eureka、Ribbon、Hystrix、Feign這些Spring Cloud Netflix主要組件。負載均衡
Eureka由多個instance(服務實例)組成,這些服務實例能夠分爲兩種:Eureka Server和Eureka Client。爲了便於理解,咱們將Eureka client再分爲Service Provider和Service Consumer。以下圖所示:框架
Service Provider和Service Consumer不是嚴格的概念,Service Consumer也能夠隨時向Eureka Server註冊,來讓本身變成一個Service Provider。分佈式
Spring Cloud針對服務註冊與發現,進行了一層抽象,並提供了三種實現:Eureka、Consul、Zookeeper。目前支持得最好的就是Eureka,其次是Consul,最後是Zookeeper。
Eureka Server做爲一個獨立的部署單元,以REST API的形式爲服務實例提供了註冊、管理和查詢等操做。同時,Eureka Server也爲咱們提供了可視化的監控頁面,能夠直觀地看到各個Eureka Server當前的運行狀態和全部已註冊服務的狀況。
Eureka Server能夠運行多個實例來構建集羣,解決單點問題,但不一樣於ZooKeeper的選舉leader的過程,Eureka Server採用的是Peer to Peer對等通訊。這是一種去中心化的架構,無master/slave區分,每個Peer都是對等的。在這種架構中,節點經過彼此互相註冊來提升可用性,每一個節點須要添加一個或多個有效的serviceUrl指向其餘節點。每一個節點均可被視爲其餘節點的副本。
若是某臺Eureka Server宕機,Eureka Client的請求會自動切換到新的Eureka Server節點,當宕機的服務器從新恢復後,Eureka會再次將其歸入到服務器集羣管理之中。當節點開始接受客戶端請求時,全部的操做都會進行replicateToPeer(節點間複製)操做,將請求複製到其餘Eureka Server當前所知的全部節點中。
一個新的Eureka Server節點啓動後,會首先嚐試從鄰近節點獲取全部實例註冊表信息,完成初始化。Eureka Server經過getEurekaServiceUrls()方法獲取全部的節點,而且會經過心跳續約的方式按期更新。默認配置下,若是Eureka Server在必定時間內沒有接收到某個服務實例的心跳,Eureka Server將會註銷該實例(默認爲90秒,經過eureka.instance.lease-expiration-duration-in-seconds配置)。當Eureka Server節點在短期內丟失過多的心跳時(好比發生了網絡分區故障),那麼這個節點就會進入自我保護模式。下圖爲Eureka官網的架構圖
什麼是自我保護模式?默認配置下,若是Eureka Server每分鐘收到心跳續約的數量低於一個閾值(instance的數量*(60/每一個instance的心跳間隔秒數)*自我保護係數),而且持續15分鐘,就會觸發自我保護。在自我保護模式中,Eureka Server會保護服務註冊表中的信息,再也不註銷任何服務實例。當它收到的心跳數從新恢復到閾值以上時,該Eureka Server節點就會自動退出自我保護模式。它的設計哲學前面提到過,那就是寧肯保留錯誤的服務註冊信息,也不盲目註銷任何可能健康的服務實例。該模式能夠經過eureka.server.enable-self-preservation = false來禁用,同時eureka.instance.lease-renewal-interval-in-seconds能夠用來更改心跳間隔,eureka.server.renewal-percent-threshold能夠用來修改自我保護係數(默認0.85)。
Eureka的官方文檔對Regin、Zone幾乎沒有說起,因爲概念抽象,新手很難理解。所以,咱們先來了解一下Region、Zone、Eureka集羣三者的關係,以下圖所示:
region和zone(或者Availability Zone)均是AWS的概念。在非AWS環境下,咱們能夠先簡單地將region理解爲Eureka集羣,zone理解成機房。上圖就能夠理解爲一個Eureka集羣被部署在了zone1機房和zone2機房中。
Service Provider本質上是一個Eureka Client。它啓動時,會調用服務註冊方法,向Eureka Server註冊本身的信息。Eureka Server會維護一個已註冊服務的列表,這個列表爲一個嵌套的hash map:
當實例狀態發生變化時(如自身檢測認爲Down的時候),也會向Eureka Server更新本身的服務狀態,同時用replicateToPeers()向其它Eureka Server節點作狀態同步。
前面提到過,服務實例啓動後,會週期性地向Eureka Server發送心跳以續約本身的信息,避免本身的註冊信息被剔除。續約的方式與服務註冊基本一致:首先更新自身狀態,再同步到其它Peer。
若是Eureka Server在一段時間內沒有接收到某個微服務節點的心跳,Eureka Server將會註銷該微服務節點(自我保護模式除外)。
Service Consumer本質上也是一個Eureka Client(它也會向Eureka Server註冊,只是這個註冊信息可有可無罷了)。它啓動後,會從Eureka Server上獲取全部實例的註冊信息,包括IP地址、端口等,並緩存到本地。這些信息默認每30秒更新一次。前文提到過,若是與Eureka Server通訊中斷,Service Consumer仍然能夠經過本地緩存與Service Provider通訊。
實際開發Eureka的過程當中,有時會碰見Service Consumer獲取到Server Provider的信息有延遲,在Eureka Wiki中有這麼一段話:
All operations from Eureka client may take some time to reflect in the Eureka servers and subsequently in other Eureka clients. This is because of the caching of the payload on the eureka server which is refreshed periodically to reflect new information. Eureka clients also fetch deltas periodically. Hence, it may take up to 2 mins for changes to propagate to all Eureka clients.
最後一句話提到,服務端的更改可能須要2分鐘才能傳播到全部客戶端,至於緣由並無介紹。這是由於Eureka有三處緩存和一處延遲形成的。
基於Service Consumer獲取到的服務實例信息,咱們就能夠進行服務調用了。而Spring Cloud也爲Service Consumer提供了豐富的服務調用工具:
接下來咱們就一一介紹。
Ribbon是Netflix發佈的開源項目,主要功能是爲REST客戶端實現負載均衡。它主要包括六個組件:
IRule,負載均衡策略,其實現類表述的策略包括:輪詢、隨機、根據響應時間加權等,其類結構以下圖所示
咱們也能夠本身定義負載均衡策略,好比咱們就利用本身實現的策略,實現了服務的版本控制和直連配置。實現好以後,將實現類從新注入到Ribbon中便可。
ILoadBalancer,負載均衡器。這也是一個接口,Ribbon爲其提供了多個實現,好比ZoneAwareLoadBalancer。而上層代碼經過調用其API進行服務調用的負載均衡選擇。通常ILoadBalancer的實現類中會引用一個IRule。
Ribbon工做時會作四件事情:
Netflix建立了一個名爲Hystrix的庫,實現了斷路器的模式。「斷路器」自己是一種開關裝置,當某個服務單元發生故障以後,經過斷路器的故障監控(相似熔斷保險絲),向調用方返回一個符合預期的、可處理的備選響應(FallBack),而不是長時間的等待或者拋出調用方沒法處理的異常,這樣就保證了服務調用方的線程不會被長時間、沒必要要地佔用,從而避免了故障在分佈式系統中的蔓延,乃至雪崩。
固然,在請求失敗頻率較低的狀況下,Hystrix仍是會直接把故障返回給客戶端。只有當失敗次數達到閾值(默認在20秒內失敗5次)時,斷路器打開而且不進行後續通訊,而是直接返回備選響應。固然,Hystrix的備選響應也是能夠由開發者定製的。
除了隔離依賴服務的調用之外,Hystrix還提供了準實時的調用監控(Hystrix Dashboard),Hystrix會持續地記錄全部經過Hystrix發起的請求的執行信息,並以統計報表和圖形的形式展現給用戶,包括每秒執行多少請求多少成功,多少失敗等。Netflix經過hystrix-metrics-event-stream項目實現了對以上指標的監控。Spring Cloud也提供了Hystrix Dashboard的整合,對監控內容轉化成可視化界面,Hystrix Dashboard Wiki上詳細說明了圖上每一個指標的含義。
Feign是一個聲明式的Web Service客戶端,它的目的就是讓Web Service調用更加簡單。它整合了Ribbon和Hystrix,從而讓咱們再也不須要顯式地使用這兩個組件。Feign還提供了HTTP請求的模板,經過編寫簡單的接口和插入註解,咱們就能夠定義好HTTP請求的參數、格式、地址等信息。接下來,Feign會徹底代理HTTP的請求,咱們只須要像調用方法同樣調用它就能夠完成服務請求。
Feign具備以下特性:
如下是一個Feign的簡單示例:
1 @SpringBootApplication 2 @EnableDiscoveryClient //啓用Feign 3 @EnableFeignClients 4 public class Application 5 { 6 public static void main(String[] args) 7 { 8 SpringApplication.run(Application.class, args); 9 } 10 } 11 12 @FeignClient(name = "elements", fallback = ElementsFallback.class) //指定feign調用的服務和Hystrix Fallback(name即eureka的application name) 13 public interface Elements 14 { 15 @RequestMapping(value = "/index") 16 String index(); 17 } 18 19 //Hystrix Fallback 20 @Component 21 public class ElementsFallback implements Elements 22 { 23 @Override 24 public String index() 25 { 26 return "**************"; 27 } 28 } 29 30 //測試類 31 @Component 32 public class TestController { 33 @Autowired 34 Elements elements; 35 36 @RequestMapping(value = "/testEureka", method = RequestMethod.GET) 37 public String testeureka() 38 { 39 return elements.index(); 40 } 41 }
原文連接:http://tech.lede.com/2017/03/15/rd/server/SpringCloud1/