服務器的高併發

時間 2019-12-01

標籤服務器併發简体版

原文原文鏈接

服務器的高併發

尊重原創來源於：石頭大V 今日頭條前端

在網上購物，秒搶某個商品，好比說小米手機，這對咱們來講都不陌生。這些看似很簡單的東西從技術的角度來講對於Web系統是一個巨大的考驗，一個Web系統，在很短期內收到不少請求時，系統的優化和穩定相當重要，咱們就來詳細解釋一下這些問題。
redis

一、大規模併發帶來的挑戰數據庫

好比說5w每秒的高併發秒殺功能，在這個過程當中，整個Web系統遇到了不少的問題和挑戰。若是Web系統不作針對性的優化，會垂手可得地陷入到異常狀態。一塊兒來討論下優化的思路和方法。後端

1.一、請求接口的合理設計瀏覽器

一個搶購頁面，一般分爲2個部分，一個是靜態的HTML等內容，另外一個就是Web後臺請求接口。一般靜態HTML等內容，是經過CDN的部署，通常壓力不大，核心瓶頸實際上在後臺請求接口上。這個後端接口，必須可以支持高併發請求，同時必須儘量「快」，在最短的時間裏返回用戶的請求結果。爲了實現儘量快這一點，接口的後端存儲使用內存級別的操做會更好一點，仍然直接面向MySQL之類數據庫的存儲是不合適的，若是有這種複雜業務的需求，都建議採用異步寫入。安全

1.二、高併發的挑戰服務器

衡量一個Web系統的吞吐率的指標是QPS（Query Per Second，每秒處理請求數），解決每秒數萬次的高併發場景，這個指標很是關鍵。假設處理一個業務請求平均響應時間爲100ms，同時系統內有20臺Apache的Web服務器，配置MaxClients爲500個（表示Apache的最大鏈接數目）。那麼Web系統的理論峯值QPS爲（理想化的計算方式）：20*500/0.1 = 100000 （10萬QPS），系統彷佛很強大，1秒鐘能夠處理完10萬的請求，實際狀況固然沒有這麼理想。在高併發的實際場景下，機器都處於高負載的狀態，在這個時候平均響應時間會被大大增長。就Web服務器而言，Apache打開了越多的鏈接進程，CPU須要處理的上下文切換也越多，額外增長了CPU的消耗，而後就直接致使平均響應時間增長。所以上述的MaxClient數目，要根據CPU、內存等硬件因素綜合考慮，絕對不是越多越好。能夠經過Apache自帶的abench來測試一下，取一個合適的值。而後，咱們選擇內存操做級別的存儲的Redis，在高併發的狀態下，存儲的響應時間相當重要，不考慮網絡帶寬和負載均衡問題。假設系統，在5w/s的高併發狀態下，平均響應時間從100ms變爲250ms（實際狀況，甚至更多）：20*500/0.25 = 40000 （4萬QPS）因而系統剩下了4w的QPS，面對5w每秒的請求，中間相差了1w。舉個通俗例子說明，收費站1秒鐘來5部車，每秒經過5部車，收費站運做正常。忽然這個收費站1秒鐘只能經過4部車，車流量仍然依舊，結果一定出現大塞車。（5條車道突然變成4條車道的感受）同理某一個秒內，20*500個可用鏈接進程都在滿負荷工做中，卻仍然有1萬個新來請求，沒有鏈接進程可用，系統陷入到異常狀態也是預期以內。其實在正常的非高併發的業務場景中，也有相似的狀況出現，某個業務請求接口出現問題，響應時間極慢，將整個Web請求響應時間拉得很長，逐漸將Web服務器的可用鏈接數佔滿，影響其餘正常的業務請求，無鏈接進程可用。更嚴重的是用戶的行爲，系統越是不可用，用戶的點擊越頻繁，惡性循環最終致使「雪崩」（其中一臺Web機器掛了，致使流量分散到其餘正常工做的機器上，再致使正常的機器也掛，而後惡性循環），將整個Web系統拖垮。網絡

1.三、重啓與過載保護多線程

若是系統發生「雪崩」，貿然重啓服務，是沒法解決問題的。這種狀況最好在入口層將流量拒絕，而後再將重啓，若是是redis/memcache這種服務也掛了，重啓的時候須要注意「預熱」，而且極可能須要比較長的時間。秒殺和搶購的場景，流量每每是超乎系統的準備和想象的。這個時候過載保護是必要的。若是檢測到系統滿負載狀態，拒絕請求也是一種保護措施。在前端設置過濾是最簡單的方式，可是，這種作法是會被客戶罵的，更合適的解決方案是將過載保護設置在CGI入口層，快速將客戶的直接請求返回。併發

二、做弊的常見手段

秒殺和搶購收到了海量的請求，實際上水分是很大的。很多用戶爲了搶到商品，會使用刷票軟件等類型的輔助工具，因此就會發送儘量多的請求到服務器。還有一部分用戶，本身製做強大的自動請求腳本，這些都是屬於「做弊的手段」，不過有「進攻」就有「防守」。

2.1 、同一個帳號，一次性發出多個請求

部分用戶經過瀏覽器的插件或者其餘工具，在秒殺開始的時間裏，以本身的帳號一次發送上百甚至更多的請求。這樣的用戶破壞了秒殺和搶購的公平性，這種請求在某些沒有作數據安全處理的系統裏，也可能形成另一種破壞，致使某些判斷條件被繞過。如一個簡單的領取邏輯，先判斷用戶是否有參與記錄，若是沒有則領取成功，最後寫入到參與記錄中。這是個很是簡單的邏輯，可是在高併發的場景下，存在深深的漏洞，多個併發請求經過負載均衡服務器，分配到內網的多臺Web服務器，它們先向存儲發送查詢請求，而後在某個請求成功寫入參與記錄的時間差內，其餘的請求獲查詢到的結果都是「沒有參與記錄」。這就存在邏輯判斷被繞過的風險。

應對方案：在程序入口處，一個帳號只容許接受1個請求，其餘請求過濾，不只解決了同一個帳號發送N個請求的問題，還保證了後續的邏輯流程的安全。

2.二、多個帳號，一次性發送多個請求

帳號註冊功能在發展早期幾乎是沒有限制的，很容易就能夠註冊不少個帳號。所以也致使了出現了一些特殊的工做室，經過編寫自動註冊腳本，積累了一大批「殭屍帳號」，數量龐大，幾萬甚至幾十萬的帳號不等，專門作各類刷行爲（這就是傳說中的「殭屍粉「）。好比有轉發抽獎的活動，若是使用幾萬個「殭屍號」去混進去轉發，這樣就能夠大大提高中獎的機率，使用在秒殺和搶購也是同一個道理，好比iPhone官網的搶購，火車票黃牛黨也是如此。

應對方案：這種場景能夠經過檢測指定機器IP請求頻率就能夠解決，若是發現某個IP請求頻率很高，能夠給它彈出一個驗證碼或者直接禁止它的請求：彈出驗證碼，目的就是分辨出真實用戶。網站彈出的驗證碼，都是隨機的樣子，有時沒法看清，這樣作的緣由，其實也是爲了讓驗證碼的圖片不被輕易識別，由於強大的「自動腳本」能夠經過圖片識別裏面的字符，而後讓腳本自動填寫驗證碼。如今有一些新方法效果會比較好，如給你一個簡單問題讓你回答，或者讓你完成某些簡單操做（例如百度貼吧的驗證碼），這個作法簡單高效，效果也很好。

2.三、多個帳號，不一樣IP發送不一樣請求

有進攻，就會有防守，這些「工做室」，發現你對單機IP請求頻率有控制以後，他們也針對這種場景，想出了他們的「新進攻方案」，就是不斷改變IP，這些隨機IP服務怎麼來的，有一些是某些機構本身佔據一批獨立IP，而後作成一個隨機代理IP的服務，有償提供給這些「工做室」使用。還有一些就是經過木馬黑掉普通用戶的電腦，這個木馬也不破壞用戶電腦的正常運做，只作一件事情，就是轉發IP包。經過這種作法黑客就拿到了大量的獨立IP，而後搭建爲隨機IP服務，賺了不少黑心錢。

應對方案：這種狀況一般只能經過設置業務門檻高來限制這種請求了，或者經過帳號行爲的」數據挖掘「來提早清理掉它們。殭屍帳號也仍是有一些共同特徵的，例如帳號極可能屬於同一個號碼段甚至是連號的，活躍度不高，等級低，資料不全等等。根據這些特色，適當設置參與門檻，例如限制參與秒殺的帳號等級。經過這些業務手段，也是能夠過濾掉一些殭屍號。

2.四、火車票的搶購

看到這裏，你是否明白爲何搶不到火車票，若是你只是老老實實地去搶票，真的很難。經過多帳號的方式黃牛將不少車票的名額佔據，部分牛逼的黃牛在處理驗證碼方面更是「技高一籌「，高級的黃牛刷票時，在識別驗證碼的時候使用真實的人，中間搭建一個展現驗證碼圖片的中轉軟件服務，真人瀏覽圖片並填寫下真實驗證碼，返回給中轉軟件。對於這種方式，驗證碼的保護限制做用被廢除了，目前也沒有很好的解決方案。由於火車票是根據身份證明名制的，除比以外還有一個火車票的轉讓操做方式，就是先用買家的身份證開啓一個搶票工具，持續發送請求，黃牛帳號選擇退票，而後黃牛買家成功經過本身的身份證購票成功，由於黃牛們的搶票工具也很強大，即便讓咱們看見有退票，咱們也搶不過他們，最終黃牛順利將火車票轉移到買家的身份證下。

什麼是服務器的高併發?解決方案：並無很好的解決方案，惟一能夠動心思的也許是對帳號數據進行「數據挖掘」，這些黃牛帳號也是有一些共同特徵的，例如常常搶票和退票，節假日異常活躍等等。將它們分析出來，再作進一步處理和甄別。

三、高併發下的數據安全

多線程寫入同一個文件的時候，會存現「線程安全」的問題（多個線程同時運行同一段代碼，若是每次運行結果和單線程運行的結果是同樣的，結果和預期相同，就是線程安全的）。若是是MySQL數據庫，可使用它自帶的鎖機制很好的解決問題，可是在大規模併發的場景中，是不推薦使用MySQL的。秒殺和搶購的場景中，還有另一個問題，就是「超發」，若是在這方面控制不慎，會產生髮送過多的狀況，好比某些電商搞搶購活動，買家成功拍下後，商家卻不認可訂單有效，拒絕發貨。問題也許並不必定是商家奸詐，而是系統技術層面存在超發風險致使的。

3.一、超發的緣由

假設某個搶購場景中，一共只有100個商品，在最後一刻，咱們已經消耗了99個商品，僅剩最後一個。這個時候，系統發來多個併發請求，這批請求讀取到的商品餘量都是99個，而後都經過了這一個餘量判斷，最終致使超發。這就致使了併發用戶B也「搶購成功」，多讓一我的得到了商品。這種場景在高併發的狀況下很是容易出現。

3.二、悲觀鎖思路

悲觀鎖也就是在修改數據的時候，採用鎖定狀態，排斥外部請求的修改，遇到加鎖的狀態，就必須等待，雖然上述的方案的確解決了線程安全的問題，可是咱們的場景是「高併發」，也就是說會不少這樣的修改請求，每一個請求都須要等待「鎖」，某些線程可能永遠都沒有機會搶到這個「鎖」，這種請求就會死在那裏。同時這種請求會不少，瞬間增大系統的平均響應時間，結果是可用鏈接數被耗盡，系統陷入異常。

3.三、FIFO隊列思路

直接將請求放入隊列中的，採用FIFO（First Input First Output，先進先出），這樣的話就不會致使某些請求永遠獲取不到鎖。看到這裏是否是有點強行將多線程變成單線程的感受哈，如今解決了鎖的問題，所有請求採用「先進先出」的隊列方式來處理。那麼新的問題來了，高併發的場景下，由於請求不少，極可能一瞬間將隊列內存「撐爆」，而後系統又陷入到了異常狀態。或者設計一個極大的內存隊列，也是一種方案，系統處理完一個隊列內請求的速度根本沒法和瘋狂涌入隊列中的數目相比。也就是說隊列內的請求會越積累越多，最終Web系統平均響應時候仍是會大幅降低，系統仍是陷入異常。

3.四、樂觀鎖思路

樂觀鎖是相對於「悲觀鎖」採用更爲寬鬆的加鎖機制，大都是採用帶版本號（Version）更新。這個數據全部請求都有資格去修改，但會得到一個該數據的版本號，只有版本號符合的才能更新成功，其餘的返回搶購失敗。這樣的話咱們就不須要考慮隊列的問題，不過它會增大CPU的計算開銷。可是綜合來講，這是一個比較好的解決方案。有不少軟件和服務都「樂觀鎖」功能的支持，經過這個功能能夠保證數據的安全。

四、隨着互聯網的用戶愈來愈多，高併發的場景也變得愈來愈多，電商秒殺和搶購是兩個比較典型的高併發場景，雖然遇到的挑戰多，可是咱們不怕，由於咱們一直在努力。