本篇主要記錄dubbo中關於超時的常見問題,實現原理,解決的問題以及如何在服務降級中體現做用等。html
爲了檢查對dubbo超時的理解,嘗試回答以下幾個問題,若是回答不上來或者不肯定那麼說明此處須要再多研究研究。前端
我只是針對我的的理解提問題,並不表明我理解的就是全面深刻的,但個人問題若是也回答不了,那至少說明理解的確是不夠細的。java
本文全部問題均如下圖作爲業務場景,一個web api作爲前端請求,product service是產品服務,其中調用comment service(評論服務)獲取產品相關評論,comment service從持久層中加載數據。git
若是是爭對消費端,那麼當消費端發起一次請求後,若是在規定時間內未獲得服務端的響應則直接返回超時異常,但服務端的代碼依然在執行。github
若是是爭取服務端,那麼當消費端發起一次請求後,一直等待服務端的響應,服務端在方法執行到指定時間後若是未執行完,此時返回一個超時異常給到消費端。web
dubbo的超時是爭對客戶端的,因爲是一種NIO模式,消費端發起請求後獲得一個ResponseFuture,而後消費端一直輪詢這個ResponseFuture直至超時或者收到服務端的返回結果。雖然超時了,但僅僅是消費端再也不等待服務端的反饋並不表明此時服務端也中止了執行。bootstrap
按上圖的業務場景,看看生成的日誌:canvas
product service:報超時錯誤,由於comment service 加載數據須要5S,但接口只等1S 。後端
Caused by: com.alibaba.dubbo.remoting.TimeoutException: Waiting server-side response timeout. start time: 2017-08-05 18:14:52.751, end time: 2017-08-05 18:14:53.764, client elapsed: 6 ms, server elapsed: 1006 ms, timeout: 1000 ms, request: Request [id=0, version=2.0.0, twoway=true, event=false, broken=false, data=RpcInvocation [methodName=getCommentsByProductId, parameterTypes=[class java.lang.Long], arguments=[1], attachments={traceId=6299543007105572864, spanId=6299543007105572864, input=259, path=com.jim.framework.dubbo.core.service.CommentService, interface=com.jim.framework.dubbo.core.service.CommentService, version=0.0.0}]], channel: /192.168.10.222:53204 -> /192.168.10.222:7777 at com.alibaba.dubbo.remoting.exchange.support.DefaultFuture.get(DefaultFuture.java:107) ~[dubbo-2.5.3.jar:2.5.3] at com.alibaba.dubbo.remoting.exchange.support.DefaultFuture.get(DefaultFuture.java:84) ~[dubbo-2.5.3.jar:2.5.3] at com.alibaba.dubbo.rpc.protocol.dubbo.DubboInvoker.doInvoke(DubboInvoker.java:96) ~[dubbo-2.5.3.jar:2.5.3] ... 42 common frames omitted
comment service : 並無異常,而是慢慢悠悠的執行本身的邏輯:api
2017-08-05 18:14:52.760 INFO 846 --- [2:7777-thread-5] c.j.f.d.p.service.CommentServiceImpl : getComments start:Sat Aug 05 18:14:52 CST 2017 2017-08-05 18:14:57.760 INFO 846 --- [2:7777-thread-5] c.j.f.d.p.service.CommentServiceImpl : getComments end:Sat Aug 05 18:14:57 CST 2017
從日誌來看,超時影響的是消費端,與服務端沒有直接關係。
<dubbo:consumer timeout="1000"></dubbo:consumer>
<dubbo:provider timeout="1000"></dubbo:provider>
能夠看到dubbo針對超時作了比較精細化的支持,不管是消費端仍是服務端,不管是接口級別仍是方法級別都有支持。
上面有提到dubbo支持多種場景下設置超時時間,也說過超時是針對消費端的。那麼既然超時是針對消費端,爲何服務端也能夠設置超時呢?
這實際上是一種策略,其實服務端的超時配置是消費端的缺省配置,即若是服務端設置了超時,任務消費端能夠不設置超時時間,簡化了配置。
另外針對控制的粒度,dubbo支持了接口級別也支持方法級別,能夠根據不一樣的實際狀況精確控制每一個方法的超時時間。因此最終的優先順序爲:客戶端方法級>客戶端接口級>客戶端全局>服務端方法級>服務端接口級>服務端全局。
以前有簡單提到過, dubbo默認採用了netty作爲網絡組件,它屬於一種NIO的模式。消費端發起遠程請求後,線程不會阻塞等待服務端的返回,而是立刻獲得一個ResponseFuture,消費端經過不斷的輪詢機制判斷結果是否有返回。由於是經過輪詢,輪詢有個須要特別注要的就是避免死循環,因此爲了解決這個問題就引入了超時機制,只在必定時間範圍內作輪詢,若是超時時間就返回超時異常。
源碼
public interface ResponseFuture { /** * get result. * * @return result. */ Object get() throws RemotingException; /** * get result with the specified timeout. * * @param timeoutInMillis timeout. * @return result. */ Object get(int timeoutInMillis) throws RemotingException; /** * set callback. * * @param callback */ void setCallback(ResponseCallback callback); /** * check is done. * * @return done or not. */ boolean isDone(); }
只看它的get方法,能夠清楚看到輪詢的機制。
public Object get(int timeout) throws RemotingException { if (timeout <= 0) { timeout = Constants.DEFAULT_TIMEOUT; } if (! isDone()) { long start = System.currentTimeMillis(); lock.lock(); try { while (! isDone()) { done.await(timeout, TimeUnit.MILLISECONDS); if (isDone() || System.currentTimeMillis() - start > timeout) { break; } } } catch (InterruptedException e) { throw new RuntimeException(e); } finally { lock.unlock(); } if (! isDone()) { throw new TimeoutException(sent > 0, channel, getTimeoutMessage(false)); } } return returnFromResponse(); }
設置超時主要是解決什麼問題?若是沒有超時機制會怎麼樣?
回答上面的問題,首先要了解dubbo這類rpc產品的線程模型。下圖是我以前我的RPC學習產品的示例圖,與dubbo的線程模型大體是相同的,有興趣的可參考個人筆記:簡單RPC框架-業務線程池
咱們從dubbo的源碼看下這下線程模型是怎麼用的:
主要是負責socket鏈接之類的工做。
將一個請求分給後端的某個handle去處理,好比心跳handle ,執行業務請求的 handle等。
Netty Server中能夠看到上述兩個線程池是如何初始化的:
首選是open方法,能夠看到一個boss一個worker線程池。
protected void doOpen() throws Throwable { NettyHelper.setNettyLoggerFactory(); ExecutorService boss = Executors.newCachedThreadPool(new NamedThreadFactory("NettyServerBoss", true)); ExecutorService worker = Executors.newCachedThreadPool(new NamedThreadFactory("NettyServerWorker", true)); ChannelFactory channelFactory = new NioServerSocketChannelFactory(boss, worker, getUrl().getPositiveParameter(Constants.IO_THREADS_KEY, Constants.DEFAULT_IO_THREADS)); bootstrap = new ServerBootstrap(channelFactory); // ...... }
再看ChannelFactory的構造函數:
public NioServerSocketChannelFactory(Executor bossExecutor, Executor workerExecutor, int workerCount) { this(bossExecutor, 1, workerExecutor, workerCount); }
能夠看出,boss線程池的大小爲1,worker線程池的大小也是能夠配置的,默認大小是當前系統的核心數+1,也稱爲IO線程。
爲何會有業務線程池,這裏很少解釋,能夠參考我上面的文章。
缺省是採用固定大小的線程池,dubbo提供了三種不一樣類型的線程池供用戶選擇。咱們看看這個類:AllChannelHandler,它是其中一種handle,處理全部請求,它的一個做用就是調用業務線程池去執行業務代碼,其中有獲取線程池的方法:
private ExecutorService getExecutorService() { ExecutorService cexecutor = executor; if (cexecutor == null || cexecutor.isShutdown()) { cexecutor = SHARED_EXECUTOR; } return cexecutor; }
上面代碼中的變量executor來自於AllChannelHandler的父類WrappedChannelHandler,看下它的構造函數:
public WrappedChannelHandler(ChannelHandler handler, URL url) { //...... executor = (ExecutorService) ExtensionLoader.getExtensionLoader(ThreadPool.class).getAdaptiveExtension().getExecutor(url); //...... }
獲取線程池來自於SPI技術,從代碼中能夠看出線程池的缺省配置就是上面提到的固定大小線程池。
@SPI("fixed") public interface ThreadPool { /** * 線程池 * * @param url 線程參數 * @return 線程池 */ @Adaptive({Constants.THREADPOOL_KEY}) Executor getExecutor(URL url); }
最後看下是如何將請求丟給線程池去執行的,在AllChannelHandler中有這樣的方法:
public void received(Channel channel, Object message) throws RemotingException { ExecutorService cexecutor = getExecutorService(); try { cexecutor.execute(new ChannelEventRunnable(channel, handler, ChannelState.RECEIVED, message)); } catch (Throwable t) { throw new ExecutionException(message, channel, getClass() + " error when process received event .", t); } }
典型問題:拒絕服務
若是上面提到的dubbo線程池模型理解了,那麼也就容易理解一個問題,當前端大量請求併發出現時,頗有能夠將業務線程池中的線程消費完,由於默認缺省的線程池是固定大小(我如今版本缺省線程池大小爲200),此時會出現服務沒法按預期響應的結果,固然因爲是固定大小的線程池,當核心線程滿了後也有隊列可排,但默認是不排隊的,須要排隊須要單獨配置,咱們能夠從線程池的具體實現中看:
public class FixedThreadPool implements ThreadPool { public Executor getExecutor(URL url) { String name = url.getParameter(Constants.THREAD_NAME_KEY, Constants.DEFAULT_THREAD_NAME); int threads = url.getParameter(Constants.THREADS_KEY, Constants.DEFAULT_THREADS); int queues = url.getParameter(Constants.QUEUES_KEY, Constants.DEFAULT_QUEUES); return new ThreadPoolExecutor(threads, threads, 0, TimeUnit.MILLISECONDS, queues == 0 ? new SynchronousQueue<Runnable>() : (queues < 0 ? new LinkedBlockingQueue<Runnable>() : new LinkedBlockingQueue<Runnable>(queues)), new NamedThreadFactory(name, true), new AbortPolicyWithReport(name, url)); } }
上面代碼的結論是:
當業務線程用完後,服務端會報以下的錯誤:
Caused by: java.util.concurrent.RejectedExecutionException: Thread pool is EXHAUSTED! Thread Name: DubboServerHandler-192.168.10.222:9999, Pool Size: 1 (active: 1, core: 1, max: 1, largest: 1), Task: 8 (completed: 7), Executor status:(isShutdown:false, isTerminated:false, isTerminating:false), in dubbo://192.168.10.222:9999! at com.alibaba.dubbo.common.threadpool.support.AbortPolicyWithReport.rejectedExecution(AbortPolicyWithReport.java:53) ~[dubbo-2.5.3.jar:2.5.3] at java.util.concurrent.ThreadPoolExecutor.reject(ThreadPoolExecutor.java:823) [na:1.8.0_121] at java.util.concurrent.ThreadPoolExecutor.execute(ThreadPoolExecutor.java:1369) [na:1.8.0_121] at com.alibaba.dubbo.remoting.transport.dispatcher.all.AllChannelHandler.caught(AllChannelHandler.java:65) ~[dubbo-2.5.3.jar:2.5.3] ... 17 common frames omitted
經過上面的分析,對調用的服務設置超時時間,是爲了不由於某種緣由致使線程被長時間佔用,最終出現線程池用完返回拒絕服務的異常。
按咱們文章以前的場景,web api 請求產品明細時調用product service,爲了查詢產品評論product service調用comment service。若是此時因爲comment service異常,響應時間增大到10S(遠大於上游服務設置的超時時間),會發生超時異常,進而致使整個獲取產品明細的接口異常,這也就是日常說的強依賴。這類強依賴是超時不能解決的,解決方案通常是兩種:
只有經過作異常捕獲或者服務降級才能確保某些不重要的依賴出問題時不影響主服務的穩定性。而超時就能夠與服務降級結合起來,當消費端發生超時時自動觸發服務降級, 這樣即便咱們的評論服務一直慢,但不影響獲取產品明細的主體功能,只不過會犧牲部分體驗,用戶看到的評論不是真實的,但評論相對是個邊緣功能,相比看不到產品信息要輕的多,某種程度上是能夠捨棄的。