高性能高併發系統的穩定性保障

時間 2019-11-05

標籤高性能併發系統穩定性保障简体版

原文原文鏈接

做者：肖飛，於2011年8月份加入京東，曾親身參與到京東的應用性能監控、統一日誌、流式計算、內存緩存、四層防攻擊等一些基礎技術平臺的研發和搭建工做，經歷了京東的技術系統從簡單粗放向複雜精細化的演變過程。目前主要工做爲多中心交易項目中的數據複製中間件JingoBUS的研發。平時也會開發一些公共的平臺和工具，關注分佈式系統的實現、程序設計、性能優化、開發語言等。
　　性能、併發、穩定性三者關係html

高性能：高吞吐量、低延時前端

公式：吞吐量（併發）=單位時間/平均延時mysql

N-th% Latency：TP99, TP999linux

穩定性：低延時的穩定性標準爲TP99/TP999是隱含的必要條件；系統的穩定性標準：高+可用；用戶標準nginx

　　吞吐量：QPS， TPS，OPS等等，併發。並非越高越好，須要考慮TP99。用戶角度：系統是個黑盒，複雜系統中的任何一環到會致使穩定性問題。SLA：在某種吞吐量下能提供TP99爲n毫秒的服務能力。下降延時，會提升吞吐量，可是延時的考覈是TP99這樣的穩定的延時。web

　　如何改善延時redis

　　你應該知道以下表格算法

　　原文：http://www.eecs.berkeley.edu/~rcs/research/interactive_latency.htmlsql

　　JeffDeandocker

　　Disk random read IOPS:

　　IOPS = 1000 / (4 + 60000/7200/2) = 122

　　IOPS = 1000 / (4 + 60000/10000/2) = 142

　　IOPS = 1000 / (4 + 60000/15000/2) = 166

　　SSD random read IOPS:

　　IOPS = 1000000/16=62500

　　數字的啓示

高速緩存的威力；

線程切換代價cache miss

順序寫優於隨機寫

局域網絡快於本地HDD

大塊讀優於小塊讀

SSD解決隨機讀寫

跨地域IDC網絡是最大的延時

　　策略

關鍵路徑：「28原則」（20%的代碼影響了80%的性能問題，抓重點）、「過早優化是萬惡之源」。不一樣解讀；

優化代碼：空間換時間：各級緩存；時間換空間：好比傳輸壓縮，解決網絡傳輸的瓶頸；多核並行：減小鎖競爭；lesscode；各種語言、框架、庫的trick；算法+數據結構，保持代碼的清晰、可讀、可維護和擴展；

經過性能測試和監控找出瓶頸

　　metric

　　原文：http://www.vpsee.com/2014/09/linux-performance-tools/

　　經過性能測試和監控：

單系統operf/jprofiler etc；

Java的一系列工具：jstat, jstack, jmap, jvisualvm,HeapAnalyzer, mat

分佈式跟蹤系統：Dapper，鷹眼等

　　benchmark

　　原文：http://www.vpsee.com/2014/09/linux-performance-tools/

　　微觀

內存分配

　　吞吐量和利用率的權衡

　　顯式分配器：jemalloc/tcmalloc代替默認的ptmalloc

　　隱式分配器：JVM GC的各類調優

　　是否使用hugepagen預分配和重用：Netty的Pooled ByteBuf

　　減小拷貝：new ArrayList(int), new StringBuilder(int)

　　內存分配器利用率：減小內部或外部碎片；Page Table（頁表）， TLB（頁表寄存器緩衝），減小TLB miss,pin cache。增長COW的開銷, 與內存分配器的實現衝突。JVM的GC調優是不少Java應用的關注重點。

減小系統調用

　　批處理: buffer io，pipeline

　　使用用戶態的等價函數: gettimeofday ->clock_gettime

　　減小鎖競爭

　　RWMutex

　　CAS

　　Thread local

　　最小化鎖範圍

　　最小化狀態，不變類

　　批處理增長了內存拷貝的開銷，可是減小了系統調用開銷，減小了上下文切換的影響。bufferio的例子：日誌、網絡讀寫。pipeline的例子：redis。

減小上下文切換

　　觸發：中斷、系統調用、時間片耗盡、IO阻塞等

　　危害：L1/L2 Cache Missing，上下文保存/恢復

　　單線程：基於狀態機redis和Master/Worker的nginx

　　CPU親和性綁定

　　ThreadPool的配置，不一樣任務類型不一樣的ThreadPool

　　幾個例子：一、docker中線程池大小的核數自動設定；二、CPU節能模式；三、CENTOS-7.1內核BUG。

網絡

　　內核TCP Tuning參數和SocketOption：net.ipv4.tcp_*

　　TCP Socket鏈接池

　　網絡I/O模型

　　傳輸壓縮

　　編解碼效率

　　超時、心跳和重試機制

　　網卡：多隊列中斷CPU綁定；增長帶寬：萬兆、Bonding；Offload特性：ethtool -k eth0；UIO Driver: DPDK

　　鏈接池：減小握手、減小服務端session建立消耗。網絡I/O模型：BIO、Non-Blocking IO、AIO；select/poll、epoll/kqueue、aio；netty使用nativetransport。Offload特性：ethtool-k eth0。將數據包分組、重組、chksum等從內核層放到硬件層作。

　　如何提升吞吐量

　　改善和下降單機的延時，通常就能提升咱們的吞吐量。從集羣化上講，因素就比較多。

　　宏觀

提高系統擴展能力

應用的無狀態架構

緩存/存儲的集羣架構：冗餘複製（負載均衡、異構解除系統依賴）；分佈式（數據sharding , 副本，路由，數據一致性）；切換

微服務/SOA

擴容

異步化

緩存

複製
經過複製提升讀吞吐量、容災、異構

經過數據分片，提升寫吞吐量

程序雙寫：一致性難以控制，邏輯複雜，冪等性要求。徹底把控複製和切換時機。異構系統惟一選擇。同步雙寫（數據一致性高，影響性能，不適合多個複製集）；異步雙寫（數據一致性差，性能高，適合多個複製集）；CDC[Change Data Capture]（canal,databus等）

底層存儲複製機制：一致性由底層控制，對應用端透明。程序和底層存儲配合切換

擴容
每一年大促前的核心工做：該擴容了嗎？現狀分析；擴容規劃（關鍵系統峯值20倍吞吐量）；擴容依據（架構梳理、線上壓測）；

擴容checklist：前（部署、DB受權....）；後（配置更新、LB更新、接入日誌、接入監控....）

應用擴容、數據擴容、寫擴容、讀擴容

垂直擴容：加內存、升級SSD、更換硬件。數據複製、切換

水平擴容：數據遷移或初始化

　　現狀分析：去年雙十一到目前，峯值時的性能數據；軟硬件性能指標；數據存儲容量。

　　擴容規劃；流量規劃：核心系統20倍吞吐量；數據增加量規劃；擴容依據；架構梳理；線上壓測。

　　讀擴容比寫擴容難；讀寫分離。

　　異步化

解耦利器

削峯填谷

頁面異步化

系統異步化

JMQ

狀態機（worker）+DB

本地隊列

集中式緩存隊列

　　本地內存隊列：實時價格回源服務響應以後，經過BlockingQueue異步更新前端緩存。本地日誌隊列：庫存預佔。集中式緩存隊列：商品變動任務下發系統。

　　異步化的一些例子：

　　一、操做系統內核的高速緩存隊列，磁盤延遲刷盤；

　　二、mysql數據庫複製、redis複製；

　　異步化須要注意的是：

　　一、任務要落地；

　　二、不可避免的重複執行，須要冪等；

　　三、是否須要保證順序、如何保證順序。

　　緩存

久經考驗的局部性原理

多級緩存：瀏覽器browser cache、cdn、nginx本地redis緩存、本地JVM緩存、集中式緩存...

緩存前置：2/8原則、單品頁、實時價格、庫存狀態

一致性、延遲權衡

緩存主節點負責寫，和最重要的校驗

經過CDC監聽數據庫binlog主動更新緩存

CPU不是瓶頸，網絡纔是

優化編碼，減小尺寸

優化操做

優化拓撲

　　如何保障穩定性

　　宏觀

提升可用性

分組和隔離

限流

降級

監控和故障切換

　　可用性

可用性衡量指標：幾個9

可用性度量：A = MTBF / (MTBF + MTTR)

減小故障、加長可用時間

減小故障修復時間（發現、定位、解決）

冗餘複製、災備切換，高可用的不二法門

如何快速切換？

切換的影響

監控、ThoubleShooting、軟件質量的影響

　　可行性指標：999,一週10分鐘；9999，一週1分鐘不可用。可用性：從客戶角度。可用性度量：A = MTBF / (MTBF + MTTR) ，其中MTBF表示mean time betweenfailures，而MTTR表示maximum time to repair or resolve。

　　高可用行性的成本和收益，好鋼用在刀刃上。

　　如何快速切換：有能夠切換的？能夠不重啓應用麼？操做快捷麼？演練過麼？

　　切換的影響：切換目標資源可否承受新增的壓力；切換是否影響狀態（數據的一致性、丟失問題）。

　　監控到位、即時，減小故障發現時間；監控全面，增長故障分析時能夠參考的數據。

　　troubleshooting的能力，踩坑的精力， COE，問題本質、根源的追查。

　　軟件質量：編碼是否健壯、（異常處理、防護性、2/8原則）超時處理、日誌是否全面合理、線程名稱等等。

　　測試：case是否全面、自動迴歸。

　　上線：是否灰度：N+1, N+2；回滾方案、數據回滾。

　　分組和隔離

網絡流量隔離：大數據單獨部署，QOS；

業務系統隔離：秒殺系統獨立出主交易；

流量分組：對使用者按照重要程度、請求量、SLA要求等因素分級

存儲的分組：按照使用者重要程度、實時性要求等因素，將數據庫的複製集分組

　　傳統世界的例子：道路被劃分爲高速道路、自行道、人行道等，各行其道。

　　流量分組

　　舉例：商品基礎信息讀服務。對使用者按照重要程度、請求量、SLA要求等因素分級，將服務實例和存儲分組：交易、生產、網站、移動、promise、ERP...

　　讀寫分離

　　舉例：商品主數據服務。按照使用者重要程度、實時性要求等因素，將數據庫分組：ERP、POP、網站、大數據平臺...

　　限流

限流原則：影響到用戶體驗，謹慎使用

區分正常流量和超預期流量：限流標準來自壓力測試、折算

讀少限，寫多限

客戶端配合限流

不一樣分組的限流閾值

各層限流手段

　　前置限流，快速失敗：好比經過提供給調用方的JSF客戶端，封裝限流邏輯。

　　Nginx層限流：自主研發的模塊；幾個規則：帳戶，IP，系統調用流程。

　　應用限流：減小併發數線程數；讀少限，寫多限；DB限流；鏈接數。

　　降級

保證用戶的核心需求

降級須要有預案和開關：肯定系統和功能級別，是否可降，影響如何；降級須要有開關

非關鍵業務屏蔽：購物車的庫存狀態

業務功能模塊降級：實時價格更新不及時；peking庫，保訂單管道、生產，暫停統計相關

數據降級：動態降級到靜態；遠程服務降級到本地緩存：採銷崗服務

　　監控和切換

無所不在的監控：網絡流量；操做系統指標；服務接口調用量、TP9九、錯誤率...；日誌；業務量變化；太多監控了，如何提升監控的質量

切換：切換開關；成熟的流程可自動化；數據的重要性、一致性，要求強一致的，能夠人工介入；系統的指標無法判斷、監控點不全的，需人工判斷決定

　　review

　　Nginx層限流：自主研發的模塊；幾個規則：帳戶，IP，系統調用流程。

　　應用限流：減小併發數線程數；讀少限，寫多限；DB限流；鏈接數。

　　如何驗證性能和穩定性

線上壓測：兩類壓力測試場景（讀業務壓測、寫業務壓測）；壓力測試方案（從集羣中縮減服務器、複製流量、模擬流量、憋單）

全流程演練：降級、切換等

　　讀業務壓力測試：是將線上業務隔離後,壓測至系統臨界點,經過分析系統在臨界點時軟硬件指標定位系統短板並優化。

　　寫邏輯壓力測試,若是數據具備不可恢復性,必定要提早作好數據隔離保護,如訂單號壓測,爲避免影響線上業務,壓測先後都要作好「跳號」以隔離線上數據。

　　從集羣中縮減服務器。加大單臺服務器的壓力。大概估算出正常的集羣規模可以承載的流量。

　　複製流量。主要經過 Tcpcopy 複製端口流量,多層翻倍放大流。

　　模擬流量。模擬流量主要腳本攻擊工具和壓測工具結合,主要用ab,siege,webbench,loadruner經過多臺機器壓測。分機房,按分支進行壓測。

　　憋單。主要針對後續的訂單生產系統壓測。經過在管道積壓一批訂單,而後快速釋放,造成對後續生產系統持續快速的衝擊,達到壓測的目的。

【擴展閱讀】千萬級規模高性能、高併發的網絡架構經驗分享 - 張善友 - 博客園 http://www.cnblogs.com/shanyou/p/5048099.html————————————————版權聲明：本文爲CSDN博主「天府雲創」的原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處連接及本聲明。原文連接：https://blog.csdn.net/enweitech/article/details/53785923

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。