某直播平臺,一些網紅的直播間在業務高峯期,會有 10W+ 的粉絲接入,若是瞬間發生大量客戶端鏈接掉線、或者一些客戶端網絡比較慢,發現基於 Netty 構建的服務端內存會飆升,發生內存泄漏(OOM),致使直播卡頓、或者客戶端接收不到服務端推送的消息,用戶體驗受到很大影響。java
首先對 GC 數據進行分析,發現老年代已滿,發生屢次 Full GC,耗時達 3 分多,系統已經沒法正常運行(示例):算法
圖 1 直播高峯期服務端 GC 統計數據數組
Dump 內存堆棧進行分析,發現大量的發送任務堆積,致使內存溢出(示例):promise
圖 2 直播高峯期服務端內存 Dump 文件分析安全
經過以上分析能夠看出,在直播高峯期,服務端向上萬客戶端推送消息時,發生了發送隊列積壓,引發內存泄漏,最終致使服務端頻繁 GC,沒法正常處理業務。網絡
服務端在進行消息發送的時候作保護,具體策略以下:架構
根據可接入的最大用戶數作客戶端併發接入數流控,須要根據內存、CPU 處理能力,以及性能測試結果作綜合評估。併發
設置消息發送的高低水位,針對消息的平均大小、客戶端併發接入數、JVM 內存大小進行計算,得出一個合理的高水位取值。服務端在推送消息時,對 Channel 的狀態進行判斷,若是達到高水位以後,Channel 的狀態會被 Netty 置爲不可寫,此時服務端不要繼續發送消息,防止發送隊列積壓。app
服務端基於上述策略優化了代碼,內存泄漏問題獲得解決。框架
儘管 Netty 框架自己作了大量的可靠性設計,可是對於具體的業務場景,仍然須要用戶作針對特定領域和場景的可靠性設計,這樣才能提高應用的可靠性。
除了消息發送積壓致使的內存泄漏,Netty 還有其它常見的一些內存泄漏點,本文將針對這些可能致使內存泄漏的功能點進行分析和總結。
Netty 的消息讀取並不存在消息隊列,可是若是消息解碼策略不當,則可能會發生內存泄漏,主要有以下幾點:
1. 畸形碼流攻擊:若是客戶端按照協議規範,將消息長度值故意僞造的很是大,可能會致使接收方內存溢出。
2. 代碼 BUG:錯誤的將消息長度字段設置或者編碼成一個很是大的值,可能會致使對方內存溢出。
3. 高併發場景:單個消息長度比較大,例如幾十 M 的小視頻,同時併發接入的客戶端過多,會致使全部 Channel 持有的消息接收 ByteBuf 內存總和達到上限,發生 OOM。
避免內存泄漏的策略以下:
以 Netty 的 DelimiterBasedFrameDecoder 代碼爲例,建立 DelimiterBasedFrameDecoder 對象實例時,指定一個比較合理的消息最大長度限制,防止內存溢出:
/** {1} * Creates a new instance. {1} * {1} *@parammaxFrameLength the maximum length of the decoded frame. {1} * A {@linkTooLongFrameException} is thrown if {1} * the length of the frame exceeds this value. {1} *@paramstripDelimiter whether the decoded frame should strip out the {1} * delimiter or not {1} *@paramdelimiter the delimiter {1} */ publicDelimiterBasedFrameDecoder( intmaxFrameLength,booleanstripDelimiter, ByteBuf delimiter) { this(maxFrameLength, stripDelimiter,true, delimiter); }
Netty 的 ChannelHandler 支持串行和異步併發執行兩種策略,在將 ChannelHandler 加入到 ChannelPipeline 時,若是指定了 EventExecutorGroup,則 ChannelHandler 將由 EventExecutorGroup 中的 EventExecutor 異步執行。這樣的好處是能夠實現 Netty I/O 線程與業務 ChannelHandler 邏輯執行的分離,防止 ChannelHandler 中耗時業務邏輯的執行阻塞 I/O 線程。
ChannelHandler 異步執行的流程以下所示:
圖 3 ChannelHandler 異步併發執行流程
若是業務 ChannelHandler 中執行的業務邏輯耗時較長,消息的讀取速度又比較快,很容易發生消息在 EventExecutor 中積壓的問題,若是建立 EventExecutor 時沒有經過 io.netty.eventexecutor.maxPendingTasks 參數指定積壓的最大消息個數,則默認取值爲 0x7fffffff,長時間的積壓將致使內存溢出,相關代碼以下所示(異步執行 ChannelHandler,將消息封裝成 Task 加入到 taskQueue 中):
public void execute(Runnable task) { if(task==null) { thrownewNullPointerException("task"); } boolean inEventLoop =inEventLoop(); if(inEventLoop) { addTask(task); }else{ startThread(); addTask(task); if(isShutdown()&&removeTask(task)) { reject(); } }
解決對策:對 EventExecutor 中任務隊列的容量作限制,能夠經過 io.netty.eventexecutor.maxPendingTasks 參數作全局設置,也能夠經過構造方法傳參設置。結合 EventExecutorGroup 中 EventExecutor 的個數來計算 taskQueue 的個數,根據 taskQueue * N * 任務隊列平均大小 * maxPendingTasks < 係數 K(0 < K < 1)* 總內存的公式來進行計算和評估。
爲了防止高併發場景下,因爲對方處理慢致使自身消息積壓,除了服務端作流控以外,客戶端也須要作併發保護,防止自身發生消息積壓。
利用 Netty 提供的高低水位機制,能夠實現客戶端更精準的流控,它的工做原理以下:
圖 4 Netty 高水位接口說明
當發送隊列待發送的字節數組達到高水位上限時,對應的 Channel 就變爲不可寫狀態。因爲高水位並不影響業務線程調用 write 方法並把消息加入到待發送隊列中,所以,必需要在消息發送時對 Channel 的狀態進行判斷:當到達高水位時,Channel 的狀態被設置爲不可寫,經過對 Channel 的可寫狀態進行判斷來決定是否發送消息。
在消息發送時設置高低水位並對 Channel 狀態進行判斷,相關代碼示例以下:
public void channelActive(finalChannelHandlerContextctx){ **ctx.channel().config().setWriteBufferHighWaterMark(10 \*1024*1024);** loadRunner =newRunnable(){ @Override public void run(){ try{ TimeUnit.SECONDS.sleep(30); } catch (InterruptedException e) { e.printStackTrace(); } ByteBuf msg = null; while(true) { **if(ctx.channel().isWritable()) {** msg =Unpooled.wrappedBuffer("Netty OOM Example".getBytes()); ctx.writeAndFlush(msg); }else{ LOG.warning("The write queue is busy : "+ ctx.channel().unsafe().outboundBuffer().nioBufferSize()); } } } }; newThread(loadRunner,"LoadRunner-Thread").start(); }
對上述代碼作驗證,客戶端代碼中打印隊列積壓相關日誌,說明基於高水位的流控機制生效,日誌以下:
經過內存監控,發現內存佔用平穩:
圖 5 進行高低水位保護優化以後內存佔用狀況
在實際項目中,根據業務 QPS 規劃、客戶端處理性能、網絡帶寬、鏈路數、消息平均碼流大小等綜合因素計算並設置高水位(WriteBufferHighWaterMark)閾值,利用高水位作消息發送速率的流控,既能夠保護自身,同時又能減輕服務端的壓力,防止服務端被壓掛。
須要指出的是,並不是只有高併發場景纔會觸發消息積壓,在一些異常場景下,儘管系統流量不大,但仍然可能會致使消息積壓,可能的場景包括:
網絡瓶頸,發送速率超過網絡連接處理能力時,會致使發送隊列積壓。
對端讀取速度小於己方發送速度,致使自身 TCP 發送緩衝區滿,頻繁發生 write 0 字節時,待發送消息會在 Netty 發送隊列排隊。
當出現大量排隊時,很容易致使 Netty 的直接內存泄漏,示例以下:
圖 6 消息積壓致使內存泄漏相關堆棧
咱們在設計系統時,須要根據業務的場景、所處的網絡環境等因素進行綜合設計,爲潛在的各類故障作容錯和保護,防止由於外部因素致使自身發生內存泄漏。
有一種說法認爲 Netty 框架分配的 ByteBuf 框架會自動釋放,業務不須要釋放;業務建立的 ByteBuf 則須要本身釋放,Netty 框架不會釋放。
事實上,這種觀點是錯誤的,即使 ByteBuf 是 Netty 建立的,若是使用不當仍然會發生內存泄漏。在實際項目中如何更好的管理 ByteBuf,下面咱們分四種場景進行說明。
這類 ByteBuf 主要包括 PooledDirectByteBuf 和 PooledHeapByteBuf,它由 Netty 的 NioEventLoop 線程在處理 Channel 的讀操做時分配,須要在業務 ChannelInboundHandler 處理完請求消息以後釋放(一般是解碼以後),它的釋放有 2 種策略:
@Override public void channelRead(ChannelHandlerContextctx, Objectmsg)throws Exception { boolean release =true; try{ if(acceptInboundMessage(msg)) { I imsg = (I) msg; channelRead0(ctx,imsg); }else{ release =false; ctx.fireChannelRead(msg); } } finally { **if(autoRelease&&release) {** **ReferenceCountUtil.release(msg);** **}** } }
若是當前業務 ChannelInboundHandler 須要執行,則調用完 channelRead0 以後執行 ReferenceCountUtil.release(msg) 釋放當前請求消息。若是沒有匹配上須要繼續執行後續的 ChannelInboundHandler,則不釋放當前請求消息,調用 ctx.fireChannelRead(msg) 驅動 ChannelPipeline 繼續執行。
繼承自 SimpleChannelInboundHandler,即使業務不釋放請求 ByteBuf 對象,依然不會發生內存泄漏,相關示例代碼以下所示:
publicclassRouterServerHandlerV2**extendsSimpleChannelInboundHandler<ByteBuf>**{ // 代碼省略... @Override publicvoidchannelRead0(ChannelHandlerContext ctx, ByteBuf msg){ byte[] body =newbyte[msg.readableBytes()]; executorService.execute(()-> { // 解析請求消息,作路由轉發,代碼省略... // 轉發成功,返回響應給客戶端 ByteBuf respMsg = allocator.heapBuffer(body.length); respMsg.writeBytes(body);// 做爲示例,簡化處理,將請求返回 ctx.writeAndFlush(respMsg); }); }
對上述代碼作性能測試,發現內存佔用平穩,無內存泄漏問題,驗證了以前的分析結論。
protectedvoidonUnhandledInboundMessage(Object msg){ try{ logger.debug( "Discarded inbound message {} that reached at the tail of the pipeline. "+ "Please check your pipeline configuration.", msg); **}finally{** **ReferenceCountUtil.release(msg);** **}** }
若是業務使用非內存池模式覆蓋 Netty 默認的內存池模式建立請求 ByteBuf,例如經過以下代碼修改內存申請策略爲 Unpooled:
// 代碼省略... .childHandler(newChannelInitializer<SocketChannel>() { @Override publicvoidinitChannel(SocketChannel ch)throwsException{ ChannelPipeline p = ch.pipeline(); ch.config().setAllocator(UnpooledByteBufAllocator.DEFAULT); p.addLast(newRouterServerHandler()); } }); }
也須要按照內存池的方式去釋放內存。
只要調用了 writeAndFlush 或者 flush 方法,在消息發送完成以後都會由 Netty 框架進行內存釋放,業務不須要主動釋放內存。
它的工做原理以下:
調用 ctx.writeAndFlush(respMsg) 方法,當消息發送完成以後,Netty 框架會主動幫助應用來釋放內存,內存的釋放分爲兩種場景:
protected final ByteBufnewDirectBuffer(ByteBufbuf){ finalintreadableBytes = buf.readableBytes(); if(readableBytes==0) { **ReferenceCountUtil.safeRelease(buf);** return Unpooled.EMPTY_BUFFER; } final ByteBufAllocator alloc = alloc(); if(alloc.isDirectBufferPooled()) { ByteBuf directBuf = alloc.directBuffer(readableBytes); directBuf.writeBytes(buf,buf.readerIndex(), readableBytes); **ReferenceCountUtil.safeRelease(buf);** return directBuf; } } // 後續代碼省略 }
若是消息完整的被寫到 SocketChannel 中,則釋放 DirectByteBuffer,代碼以下(ChannelOutboundBuffer)所示:
public boolean remove(){ Entry e = flushedEntry; if(e==null) { clearNioBuffers(); returnfalse; } Object msg = e.msg; ChannelPromise promise = e.promise; intsize = e.pendingSize; removeEntry(e); if(!e.cancelled) { **ReferenceCountUtil.safeRelease(msg);** safeSuccess(promise); decrementPendingOutboundBytes(size,false,true); } // 後續代碼省略 }
對 Netty 源碼進行斷點調試,驗證上述分析:
斷點 1:在響應消息發送處打印斷點,獲取到 PooledUnsafeHeapByteBuf 實例 ID 爲 1506。
圖 7 響應發送處斷點調試
斷點 2:在 HeapByteBuffer 轉換成 DirectByteBuffer 處打斷點,發現實例 ID 爲 1506 的 PooledUnsafeHeapByteBuf 被釋放。
圖 8 響應消息釋放處斷點
斷點 3:轉換以後待發送的響應消息 PooledUnsafeDirectByteBuf 實例 ID 爲 1527。
圖 9 響應消息轉換處斷點
斷點 4:響應消息發送完成以後,實例 ID 爲 1527 的 PooledUnsafeDirectByteBuf 被釋放到內存池。
圖 10 轉換以後的響應消息釋放處斷點
不管是基於內存池仍是非內存池分配的 ByteBuf,若是是堆內存,則將堆內存轉換成堆外內存,而後釋放 HeapByteBuffer,待消息發送完成以後,再釋放轉換後的 DirectByteBuf;若是是 DirectByteBuffer,則無需轉換,待消息發送完成以後釋放。所以對於須要發送的響應 ByteBuf,由業務建立,可是不須要業務來釋放。
在 RPC 調用時,若是客戶端併發鏈接數過多,服務端又沒有針對併發鏈接數的流控機制,一旦服務端處理慢,就很容易發生批量超時和斷連重連問題。
以 Netty HTTPS 服務端爲例,典型的業務組網示例以下所示:
圖 11 Netty HTTPS 組網圖
客戶端採用 HTTP 鏈接池的方式與服務端進行 RPC 調用,單個客戶端鏈接池上限爲 200,客戶端部署了 30 個實例,而服務端只部署了 3 個實例。在業務高峯期,每一個服務端須要處理 6000 個 HTTP 鏈接,當服務端時延增大以後,會致使客戶端批量超時,超時以後客戶端會關閉鏈接從新發起 connect 操做,在某個瞬間,幾千個 HTTPS 鏈接同時發起 SSL 握手操做,因爲服務端此時也處於高負荷運行狀態,就會致使部分鏈接 SSL 握手失敗或者超時,超時以後客戶端會繼續重連,進一步加劇服務端的處理壓力,最終致使服務端來不及釋放客戶端 close 的鏈接,引發 NioSocketChannel 大量積壓,最終 OOM。
經過客戶端的運行日誌能夠看到一些 SSL 握手發生了超時,示例以下:
圖 12 SSL 握手超時日誌
服務端並無對客戶端的鏈接數作限制,這會致使儘管 ESTABLISHED 狀態的鏈接數並不會超過 6000 上限,可是因爲一些 SSL 鏈接握手失敗,再加上積壓在服務端的鏈接並無及時釋放,最終引發了 NioSocketChannel 的大量積壓。
在服務端增長對客戶端併發鏈接數的控制,原理以下所示:
圖 13 服務端 HTTS 鏈接數流控
基於 Netty 的 Pipeline 機制,能夠對 SSL 握手成功、SSL 鏈接關閉作切面攔截(相似於 Spring 的 AOP 機制,可是沒采用反射機制,性能更高),經過流控切面接口,對 HTTPS 鏈接作計數,根據計數器作流控,服務端的流控算法以下:
獲取流控閾值。
從全局上下文中獲取當前的併發鏈接數,與流控閾值對比,若是小於流控閾值,則對當前的計數器作原子自增,容許客戶端鏈接接入。
若是等於或者大於流控閾值,則拋出流控異常給客戶端。
SSL 鏈接關閉時,獲取上下文中的併發鏈接數,作原子自減。
在實現服務端流控時,須要注意以下幾點:
流控的 ChannelHandler 聲明爲 @ChannelHandler.Sharable,這樣全局建立一個流控實例,就能夠在全部的 SSL 鏈接中共享。
經過 userEventTriggered 方法攔截 SslHandshakeCompletionEvent 和 SslCloseCompletionEvent 事件,在 SSL 握手成功和 SSL 鏈接關閉時更新流控計數器。
流控並非單針對 ESTABLISHED 狀態的 HTTP 鏈接,而是針對全部狀態的鏈接,由於客戶端關閉鏈接,並不意味着服務端也同時關閉了鏈接,只有 SslCloseCompletionEvent 事件觸發時,服務端才真正的關閉了 NioSocketChannel,GC 纔會回收鏈接關聯的內存。
流控 ChannelHandler 會被多個 NioEventLoop 線程調用,所以對於相關的計數器更新等操做,要保證併發安全性,避免使用全局鎖,能夠經過原子類等提高性能。
執行它的 execute(Runnable task) 以及定時任務相關接口時,若是任務執行耗時過長、任務執行頻度太高,可能會致使任務隊列積壓,進而引發 OOM:
圖 14 NioEventLoop 定時任務執行接口
建議業務在使用時,對 NioEventLoop 隊列的積壓狀況進行採集和告警。
業務在初始化鏈接池時,若是採用每一個客戶端鏈接對應一個 EventLoopGroup 實例的方式,即每建立一個客戶端鏈接,就會同時建立一個 NioEventLoop 線程來處理客戶端鏈接以及後續的網絡讀寫操做,採用的策略是典型的 1 個 TCP 鏈接對應一個 NIO 線程的模式。當系統的鏈接數不少、堆內存又不足時,就會發生內存泄漏或者線程建立失敗異常。問題示意以下:
圖 15 錯誤的客戶端線程模型
優化策略:客戶端建立鏈接池時,EventLoopGroup 能夠重用,優化以後的鏈接池線程模型以下所示:
圖 16 正確的客戶端線程模型
經過 jmap -dump:format=b,file=xx pid 命令 Dump 內存堆棧,而後使用 MemoryAnalyzer 工具對內存佔用進行分析,查找內存泄漏點,而後結合代碼進行分析,定位內存泄漏的具體緣由,示例以下所示:
圖 17 經過 MemoryAnalyzer 工具分析內存堆棧
建議策略以下:
排查下業務代碼,看使用堆外內存的地方是否存在忘記釋放問題。
若是使用到了 Netty 的 TLS/SSL/openssl,建議到 Netty 社區查下 BUG 列表,看是不是 Netty 老版本已知的 BUG,此類 BUG 經過升級 Netty 版本能夠解決。
若是上述兩個步驟排查沒有結果,則能夠經過 google-perftools 工具協助進行堆外內存分析
歡迎學Java和大數據的朋友們加入java架構交流: 855835163
加羣連接:https://jq.qq.com/?_wv=1027&k=5dPqXGI 羣內提供免費的架構資料還有:Java工程化、高性能及分佈式、高性能、深刻淺出。高架構。性能調優、Spring,MyBatis,Netty源碼分析和大數據等多個知識點高級進階乾貨的免費直播講解 能夠進來一塊兒學習交流哦