SpringCloud服務的平滑上下線

時間 2019-11-07

標籤 springcloud 服務平滑下線简体版

原文原文鏈接

吐槽

之前都是手擼RPC，最近接觸SpringCloud，深感痛心。主要有如下幾點：spring

1）代碼量巨大，找BUG時間長，超級複雜的設計緩存

2）版本管理混亂，常常出現莫名其妙的配置錯誤（因此2.0是打死不敢上生產啊）tomcat

3）Netflix公司的有些代碼，實在是讓人費解，根本就不考慮擴展性bash

4）生態鏈龐大，學習成本大服務器

建議準備上微服務的同窗，固定下一個版本，不要隨意更新或降級。拿tomcat的basedir來講，1.5.8到1.5.13到1.5.16版本是換來換去，不當心點會出事故的。負載均衡

server:
  port: 21004
  context-path: /
  tomcat:
    basedir: file:.
複製代碼

如上，basedir先是從.換到file:.，又從file:.換成.，連兼容代碼都木有。有木有想打死工程師？微服務

前言

今天主要談的話題，是平滑的上下線功能。所謂平滑，指的是發版無感知，不至於等到夜深人靜的時候偷偷去搞。某些請求時間能夠長點，但不能失敗，尤爲是對支付來講，想花錢花不出去是很讓人苦惱的；花了錢買不到東西是很讓人惱火的。總體來講，SpringCloud功能齊全，通過一段時間的踩坑後使用起來仍是很是舒服的。工具

咱們的微服務，大致集成了如下內容。學習

嗯，一個龐大的生態spa

問題

那麼問題來了，SpringCloud到註冊中心的註冊是經過Rest接口調用的。它不能像ZooKeeper那樣，有問題節點反饋及時生效。也不能像Redis那麼快的去輪訓，太嬌貴怕輪壞了。以下圖：

有三個要求：

1）ServiceA下線一臺實例後，Zuul網關的調用不能失敗 2）ServiceB下線一臺實例後，ServiceA的Feign調用不能失敗 3）服務上線下線，Eureka服務可以快速感知

說白了就一件事，怎樣儘可能縮短服務下線後Zuul和其餘被依賴服務的發現時間，並在這段時間內保證請求不失敗。

解決時間問題

影響因子

1) Eureka的兩層緩存問題 (這是什麼鬼）

EurekaServer默認有兩個緩存，一個是ReadWriteMap，另外一個是ReadOnlyMap。有服務提供者註冊服務或者維持心跳時時，會修改ReadWriteMap。當有服務調用者查詢服務實例列表時，默認會從ReadOnlyMap讀取（這個在原生Eureka能夠配置，SpringCloud Eureka中不能配置，必定會啓用ReadOnlyMap讀取），這樣能夠減小ReadWriteMap讀寫鎖的爭用，增大吞吐量。EurekaServer定時把數據從ReadWriteMap更新到ReadOnlyMap中

2) 心跳時間

服務提供者註冊服務後，會定時心跳。這個根據服務提供者的Eureka配置中的服務刷新時間決定。還有個配置是服務過時時間，這個配置在服務提供者配置可是在EurekaServer使用了，可是默認配置EurekaServer不會啓用這個字段。須要配置好EurekaServer的掃描失效時間，纔會啓用EurekaServer的主動失效機制。在這個機制啓用下：每一個服務提供者會發送本身服務過時時間上去，EurekaServer會定時檢查每一個服務過時時間和上次心跳時間，若是在過時時間內沒有收到過任何一次心跳，同時沒有處於保護模式下，則會將這個實例從ReadWriteMap中去掉

3）調用者服務從Eureka拉列表的輪訓間隔

4) Ribbon緩存

解決方式

1) 禁用Eureka的ReadOnlyMap緩存 (Eureka端)

eureka.server.use-read-only-response-cache: false
複製代碼

2) 啓用主動失效，而且每次主動失效檢測間隔爲3s (Eureka端)

eureka.server.eviction-interval-timer-in-ms: 3000
複製代碼

像eureka.server.responseCacheUpdateInvervalMs和eureka.server.responseCacheAutoExpirationInSeconds在啓用了主動失效後其實沒什麼用了。默認的180s真夠把人給急瘋的。

3) 服務過時時間（服務提供方）

eureka.instance.lease-expiration-duration-in-seconds: 15
複製代碼

超過這個時間沒有接收到心跳EurekaServer就會將這個實例剔除。EurekaServer必定要設置eureka.server.eviction-interval-timer-in-ms不然這個配置無效，這個配置通常爲服務刷新時間配置的三倍。默認90s！

4）服務刷新時間配置，每隔這個時間會主動心跳一次 (服務提供方）

eureka.instance.lease-renewal-interval-in-seconds: 5
複製代碼

默認30s

5) 拉服務列表時間間隔（客戶端）

eureka.client.registryFetchIntervalSeconds: 5
複製代碼

默認30s

6) ribbon刷新時間（客戶端）

ribbon.ServerListRefreshInterval: 5000
複製代碼

ribbon居然也有緩存，默認30s

這些超時時間相互影響，居然三個地方都須要配置，一不當心就會出現服務不下線，服務不上線的囧境。不得不說SpringCloud的這套默認參數簡直就是在搞笑。

重試

那麼一臺服務器下線，最長的不可用時間是多少呢？（即請求會落到下線的服務器上，請求失敗）。趕的巧的話，這個基本時間就是eureka.client.registryFetchIntervalSeconds+ribbon.ServerListRefreshInterval,大約是8秒的時間。若是算上服務端主動失效的時間，這個時間會增長到11秒。

若是你只有兩個實例，極端狀況下服務上線的發現時間也須要11秒，那就是22秒的時間。

理想狀況下，在這11秒之間，請求是失敗的。加入你的QPS是1000，部署了四個節點，那麼在11秒中失敗的請求數量會是 1000 / 4 * 11 = 2750，這是不可接受的。因此咱們要引入重試機制。

SpringCloud引入重試仍是比較簡單的。但不是配置一下就能夠的，既然用了重試，那麼就還須要控制超時。能夠按照如下的步驟：

引入pom （千萬別忘了哦)

<dependency>
    <groupId>org.springframework.retry</groupId>
    <artifactId>spring-retry</artifactId>
</dependency>
複製代碼

加入配置

ribbon.OkToRetryOnAllOperations:true 
#(是否全部操做都重試，若false則僅get請求重試)
ribbon.MaxAutoRetriesNextServer:3 
#(重試負載均衡其餘實例最大重試次數,不含首次實例)
ribbon.MaxAutoRetries:1
#(同一實例最大重試次數,不含首次調用)
ribbon.ReadTimeout:30000
ribbon.ConnectTimeout:3000
ribbon.retryableStatusCodes:404,500,503
#（那些狀態進行重試）
spring.cloud.loadbalancer.retry.enable:true
# (重試開關)
複製代碼