面對大量用戶訪問、高併發請求,海量數據,可使用高性能的服務器、大型數據庫,存儲設備,高性能Web服務器,採用高效率的編程語言好比 (Go,Scala)等,當單機容量達到極限時,咱們須要考慮業務拆分和分佈式部署,來解決大型網站訪問量大,併發量高,海量數據的問題。前端
從單機網站到分佈式網站,很重要的區別是業務拆分和分佈式部署,將應用拆分後,部署到不一樣的機器上,實現大規模分佈式系統。分佈式和業務拆分解決 了,從集中到分佈的問題,可是每一個部署的獨立業務還存在單點的問題和訪問統一入口問題,爲解決單點故障,咱們能夠採起冗餘的方式。將相同的應用部署到多臺 機器上。解決訪問統一入口問題,咱們能夠在集羣前面增長負載均衡設備,實現流量分發。linux
負載均衡(Load Balance),意思是將負載(工做任務,訪問請求)進行平衡、分攤到多個操做單元(服務器,組件)上進行執行。是解決高性能,單點故障(高可用),擴展性(水平伸縮)的終極解決方案。nginx
系統的擴展可分爲縱向(垂直)擴展和橫向(水平)擴展。縱向擴展,是從單機的角度經過增長硬件處理能力,好比CPU處理能力,內存容量,磁盤等方 面,實現服務器處理能力的提高,不能知足大型分佈式系統(網站),大流量,高併發,海量數據的問題。所以須要採用橫向擴展的方式,經過添加機器來知足大型 網站服務的處理能力。好比:一臺機器不能知足,則增長兩臺或者多臺機器,共同承擔訪問壓力。這就是典型的集羣和負載均衡架構:以下圖:web
負載均衡的做用(解決的問題):算法
1.解決併發壓力,提升應用處理性能(增長吞吐量,增強網絡處理能力);sql
2.提供故障轉移,實現高可用;數據庫
3.經過添加或減小服務器數量,提供網站伸縮性(擴展性);編程
4.安全防禦;(負載均衡設備上作一些過濾,黑白名單等處理)windows
根據實現技術不一樣,可分爲DNS負載均衡,HTTP負載均衡,IP負載均衡,鏈路層負載均衡等。後端
最先的負載均衡技術,利用域名解析實現負載均衡,在DNS服務器,配置多個A記錄,這些A記錄對應的服務器構成集羣。大型網站老是部分使用DNS解析,做爲第一級負載均衡。以下圖:
優勢
缺點
實踐建議
將DNS做爲第一級負載均衡,A記錄對應着內部負載均衡的IP地址,經過內部負載均衡將請求分發到真實的Web服務器上。通常用於互聯網公司,複雜的業務系統不合適使用。以下圖:
在網絡層經過修改請求目標地址進行負載均衡。
用戶請求數據包,到達負載均衡服務器後,負載均衡服務器在操做系統內核進程獲取網絡數據包,根據負載均衡算法獲得一臺真實服務器地址,而後將請求目的地址修改成,得到的真實ip地址,不須要通過用戶進程處理。
真實服務器處理完成後,響應數據包回到負載均衡服務器,負載均衡服務器,再將數據包源地址修改成自身的ip地址,發送給用戶瀏覽器。以下圖:
IP負載均衡,真實物理服務器返回給負載均衡服務器,存在兩種方式:(1)負載均衡服務器在修改目的ip地址的同時修改源地址。將數據包源地址設爲自身盤,即源地址轉換(snat)。(2)將負載均衡服務器同時做爲真實物理服務器集羣的網關服務器。
優勢:
(1)在內核進程完成數據分發,比在應用層分發性能更好;
缺點:
(2)全部請求響應都須要通過負載均衡服務器,集羣最大吞吐量受限於負載均衡服務器網卡帶寬;
在通訊協議的數據鏈路層修改mac地址,進行負載均衡。
數據分發時,不修改ip地址,指修改目標mac地址,配置真實物理服務器集羣全部機器虛擬ip和負載均衡服務器ip地址一致,達到不修改數據包的源地址和目標地址,進行數據分發的目的。
實際處理服務器ip和數據請求目的ip一致,不須要通過負載均衡服務器進行地址轉換,可將響應數據包直接返回給用戶瀏覽器,避免負載均衡服務器網卡帶寬成爲瓶頸。也稱爲直接路由模式(DR模式)。以下圖:
優勢:性能好;
缺點:配置複雜;
實踐建議:DR模式是目前使用最普遍的一種負載均衡方式。
因爲多個服務器羣內硬件設備、各自的規模、提供的服務等的差別,能夠考慮給每一個服務器羣採用最合適的負載均衡方式,而後又在這多個服務器羣間再一次 負載均衡或羣集起來以一個總體向外界提供服務(即把這多個服務器羣當作一個新的服務器羣),從而達到最佳的性能。將這種方式稱之爲混合型負載均衡。
此種方式有時也用於單臺均衡設備的性能不能知足大量鏈接請求的狀況下。是目前大型互聯網公司,廣泛使用的方式。
方式一,以下圖:
以上模式適合有動靜分離的場景,反向代理服務器(集羣)能夠起到緩存和動態請求分發的做用,當時靜態資源緩存在代理服務器時,則直接返回到瀏覽器。若是動態頁面則請求後面的應用負載均衡(應用集羣)。
方式二,以下圖:
以上模式,適合動態請求場景。
因混合模式,能夠根據具體場景,靈活搭配各類方式,以上兩種方式僅供參考
經常使用的負載均衡算法有,輪詢,隨機,最少連接,源地址散列,加權等方式;
將全部請求,依次分發到每臺服務器上,適合服務器硬件同相同的場景。
優勢:服務器請求數目相同;
缺點:服務器壓力不同,不適合服務器配置不一樣的狀況;
請求隨機分配到各個服務器。
優勢:使用簡單;
缺點:不適合機器配置不一樣的場景;
將請求分配到鏈接數最少的服務器(目前處理請求最少的服務器)。
優勢:根據服務器當前的請求處理狀況,動態分配;
缺點:算法實現相對複雜,須要監控服務器請求鏈接數;
根據IP地址進行Hash計算,獲得IP地址。
優勢:未來自同一IP地址的請求,同一會話期內,轉發到相同的服務器;實現會話粘滯。
缺點:目標服務器宕機後,會話會丟失;
在輪詢,隨機,最少連接,Hash’等算法的基礎上,經過加權的方式,進行負載服務器分配。
優勢:根據權重,調節轉發服務器的請求數目;
缺點:使用相對複雜;
採用硬件的方式實現負載均衡,通常是單獨的負載均衡服務器,價格昂貴,通常土豪級公司能夠考慮,業界領先的有兩款,F5和A10。
使用硬件負載均衡,主要考慮一下幾個方面:
(1)功能考慮:功能全面支持各層級的負載均衡,支持全面的負載均衡算法,支持全局負載均衡;
(2)性能考慮:通常軟件負載均衡支持到5萬級併發已經很困難了,硬件負載均衡能夠支持
(3)穩定性:商用硬件負載均衡,通過了良好的嚴格的測試,從通過大規模使用,在穩定性方面高;
(4)安全防禦:硬件均衡設備除具有負載均衡功能外,還具有防火牆,防DDOS攻擊等安全功能;
(5)維護角度:提供良好的維護管理界面,售後服務和技術支持;
(6)土豪公司:F5 Big Ip 價格:15w~55w不等;A10 價格:55w-100w不等;
缺點
(1)價格昂貴;
(2)擴展能力差;
(1)通常硬件的負載均衡也要作雙機高可用,所以成本會比較高。
(2)互聯網公司通常使用開源軟件,所以大部分應用採用軟件負載均衡;部分採用硬件負載均衡。
好比某互聯網公司,目前是使用幾臺F5作全局負載均衡,內部使用Nginx等軟件負載均衡。
硬件負載均衡性能優越,功能全面,可是價格昂貴,通常適合初期或者土豪級公司長期使用。所以軟件負載均衡在互聯網領域大量使用。經常使用的軟件負載均衡軟件有Nginx,Lvs,HaProxy等。本文參考大量文檔,部分爲直接拷貝,參考出處見負載均衡詳解(4)。
Ngnix是一款輕量級的Web服務器/反向代理服務器,工做在七層Http協議的負載均衡系統。具備高性能、高併發、低內存使用等特色。是一個輕 量級的Http和反向代理服務器。Nginx使用epoll and kqueue做爲開發模型。可以支持高達 50,000 個併發鏈接數的響應。
操做系統:Liunx,Windows(Linux、FreeBSD、Solaris、Mac OS X、AIX以及Microsoft Windows)
開發語言:C
併發性能:官方支持每秒5萬併發,實際國內通常到每秒2萬併發,有優化到每秒10萬併發的。具體性能看應用場景。
1.模塊化設計:良好的擴展性,能夠經過模塊方式進行功能擴展。
2.高可靠性:主控進程和worker是同步實現的,一個worker出現問題,會馬上啓動另外一個worker。
3.內存消耗低:一萬個長鏈接(keep-alive),僅消耗2.5MB內存。
4.支持熱部署:不用中止服務器,實現更新配置文件,更換日誌文件、更新服務器程序版本。
5.併發能力強:官方數據每秒支持5萬併發;
6.功能豐富:優秀的反向代理功能和靈活的負載均衡策略
Nginx的高併發,官方測試支持5萬併發鏈接。實際生產環境能到2-3萬併發鏈接數。10000個非活躍的HTTP keep-alive 鏈接僅佔用約2.5MB內存。三萬併發鏈接下,10個Nginx進程,消耗內存150M。淘寶tengine團隊測試結果是「24G內存機器上,處理併發 請求可達200萬」。
一個master進程,生成一個或者多個worker進程。可是這裏master是使用root身份啓動的,由於nginx要工做在80端口。而只 有管理員纔有權限啓動小於低於1023的端口。master主要是負責的做用只是啓動worker,加載配置文件,負責系統的平滑升級。其它的工做是交給 worker。那麼當worker被啓動以後,也只是負責一些web最簡單的工做,而其餘的工做都是有worker中調用的模塊來實現的。
模塊之間是以流水線的方式實現功能的。流水線,指的是一個用戶請求,由多個模塊組合各自的功能依次實現完成的。好比:第一個模塊只負責分析請求首部,第二個模塊只負責查找數據,第三個模塊只負責壓縮數據,依次完成各自工做。來實現整個工做的完成。
他們是如何實現熱部署的呢?實際上是這樣的,咱們前面說master不負責具體的工做,而是調用worker工做,他只是負責讀取配置文件,所以當一 個模塊修改或者配置文件發生變化,是由master進行讀取,所以此時不會影響到worker工做。在master進行讀取配置文件以後,不會當即的把修 改的配置文件告知worker。而是讓被修改的worker繼續使用老的配置文件工做,當worker工做完畢以後,直接當掉這個子進程,更換新的子進 程,使用新的規則。
Sendfile機制,用戶將請求發給內核,內核根據用戶的請求調用相應用戶進程,進程在處理時須要資源。此時再把請求發給內核(進程沒有直接IO 的能力),由內核加載數據。內核查找到數據以後,會把數據複製給用戶進程,由用戶進程對數據進行封裝,以後交給內核,內核在進行tcp/ip首部的封裝, 最後再發給客戶端。這個功能用戶進程只是發生了一個封裝報文的過程,卻要繞一大圈。所以nginx引入了sendfile機制,使得內核在接受到數據之 後,再也不依靠用戶進程給予封裝,而是本身查找本身封裝,減小了一個很長一段時間的浪費,這是一個提高性能的核心點。
以上內容摘自網友發佈的文章,簡單一句話是資源的處理,直接經過內核層進行數據傳遞,避免了數據傳遞到應用層,應用層再傳遞到內核層的開銷。
目前高併發的處理,通常都採用sendfile模式。經過直接操做內核層數據,減小應用與內核層數據傳遞。
開發模型:epoll和kqueue。
支持的事件機制:kqueue、epoll、rt signals、/dev/poll 、event ports、select以及poll。
支持的kqueue特性包括EV_CLEAR、EV_DISABLE、NOTE_LOWAT、EV_EOF,可用數據的數量,錯誤代碼.
支持sendfile、sendfile64和sendfilev;文件AIO;DIRECTIO;支持Accept-filters和TCP_DEFER_ACCEP.
以上概念較多,你們自行百度或谷歌,知識領域是網絡通訊(BIO,NIO,AIO)和多線程方面的知識。
nginx的負載均衡策略能夠劃分爲兩大類:內置策略和擴展策略。內置策略包含加權輪詢和ip hash,在默認狀況下這兩種策略會編譯進nginx內核,只需在nginx配置中指明參數便可。擴展策略有不少,如fair、通用hash、 consistent hash等,默認不編譯進nginx內核。因爲在nginx版本升級中負載均衡的代碼沒有本質性的變化,所以下面將以nginx1.0.15穩定版爲例, 從源碼角度分析各個策略。
輪詢的原理很簡單,首先咱們介紹一下輪詢的基本流程。以下是處理一次請求的流程圖:
圖中有兩點須要注意,第一,若是能夠把加權輪詢算法分爲先深搜索和先廣搜索,那麼nginx採用的是先深搜索算法,即將首先將請求都分給高權重的機 器,直到該機器的權值降到了比其餘機器低,纔開始將請求分給下一個高權重的機器;第二,當全部後端機器都down掉時,nginx會當即將全部機器的標誌 位清成初始狀態,以免形成全部的機器都處在timeout的狀態,從而致使整個前端被夯住。
ip hash是nginx內置的另外一個負載均衡的策略,流程和輪詢很相似,只是其中的算法和具體的策略有些變化,以下圖所示:
fair策略是擴展策略,默認不被編譯進nginx內核。其原理是根據後端服務器的響應時間判斷負載狀況,從中選出負載最輕的機器進行分流。這種策略具備很強的自適應性,可是實際的網絡環境每每不是那麼簡單,所以要慎用。
這兩種也是擴展策略,在具體的實現上有些差異,通用hash比較簡單,能夠以nginx內置的變量爲key進行hash,一致性hash採用了nginx內置的一致性hash環,能夠支持memcache。
Ngnix通常做爲入口負載均衡或內部負載均衡,結合反向代理服務器使用。如下架構示例,僅供參考,具體使用根據場景而定。
Ngnix服務器在用戶訪問的最前端。根據用戶請求再轉發到具體的應用服務器或二級負載均衡服務器(LVS)
LVS做爲入口負載均衡,將請求轉發到二級Ngnix服務器,Ngnix再根據請求轉發到具體的應用服務器。
分佈式系統中,應用只部署一臺服務器會存在單點故障,負載均衡一樣有相似的問題。通常可採用主備或負載均衡設備集羣的方式節約單點故障或高併發請求分流。
Ngnix高可用,至少包含兩個Ngnix服務器,一臺主服務器,一臺備服務器,之間使用Keepalived作健康監控和故障檢測。開放VIP端口,經過防火牆進行外部映射。
DNS解析公網的IP實際爲VIP。
LVS是一個開源的軟件,由畢業於國防科技大學的章文嵩博士於1998年5月創立,用來實現Linux平臺下的簡單負載均衡。LVS是Linux Virtual Server的縮寫,意思是Linux虛擬服務器。
基於IP層的負載均衡調度技術,它在操做系統核心層上,未來自IP層的TCP/UDP請求均衡地轉移到不一樣的 服務器,從而將一組服務器構成一個高性能、高可用的虛擬服務器。
操做系統:Liunx
開發語言:C
併發性能:默認4096,能夠修改但須要從新編譯。
LVS的主要功能是實現IP層(網絡層)負載均衡,有NAT,TUN,DR三種請求轉發模式。
NAT是指Network Address Translation,它的轉發流程是:Director機器收到外界請求,改寫數據包的目標地址,按相應的調度算法將其發送到相應Real Server上,Real Server處理完該請求後,將結果數據包返回到其默認網關,即Director機器上,Director機器再改寫數據包的源地址,最後將其返回給外 界。這樣就完成一次負載調度。
構架一個最簡單的LVS/NAT方式的負載均衡集羣Real Server能夠是任何的操做系統,並且無需作任何特殊的設定,唯一要作的就是將其默認網關指向Director機器。Real Server可使用局域網的內部IP(192.168.0.0/24)。Director要有兩塊網卡,一塊網卡綁定一個外部IP地址 (10.0.0.1),另外一塊網卡綁定局域網的內部IP(192.168.0.254),做爲Real Server的默認網關。
LVS/NAT方式實現起來最爲簡單,並且Real Server使用的是內部IP,能夠節省Real IP的開銷。但由於執行NAT須要重寫流經Director的數據包,在速度上有必定延遲;
當用戶的請求很是短,而服務器的迴應很是大的狀況下,會對Director造成很大壓力,成爲新的瓶頸,從而使整個系統的性能受到限制。
TUN是指IP Tunneling,它的轉發流程是:Director機器收到外界請求,按相應的調度算法,經過IP隧道發送到相應Real Server,Real Server處理完該請求後,將結果數據包直接返回給客戶。至此完成一次負載調度。
最簡單的LVS/TUN方式的負載均衡集羣架構使用IP Tunneling技術,在Director機器和Real Server機器之間架設一個IP Tunnel,經過IP Tunnel將負載分配到Real Server機器上。Director和Real Server之間的關係比較鬆散,能夠是在同一個網絡中,也能夠是在不一樣的網絡中,只要二者可以經過IP Tunnel相連就行。收到負載分配的Real Server機器處理完後會直接將反饋數據送回給客戶,而沒必要經過Director機器。實際應用中,服務器必須擁有正式的IP地址用於與客戶機直接通 信,而且全部服務器必須支持IP隧道協議。
該方式中Director將客戶請求分配到不一樣的Real Server,Real Server處理請求後直接回應給用戶,這樣Director就只處理客戶機與服務器的一半鏈接,極大地提升了Director的調度處理能力,使集羣系 統能容納更多的節點數。另外TUN方式中的Real Server能夠在任何LAN或WAN上運行,這樣能夠構築跨地域的集羣,其應對災難的能力也更強,可是服務器須要爲IP封裝付出必定的資源開銷,並且後 端的Real Server必須是支持IP Tunneling的操做系統。
DR是指Direct Routing,它的轉發流程是:Director機器收到外界請求,按相應的調度算法將其直接發送到相應Real Server,Real Server處理完該請求後,將結果數據包直接返回給客戶,完成一次負載調度。
構架一個最簡單的LVS/DR方式的負載均衡集羣Real Server和Director都在同一個物理網段中,Director的網卡IP是192.168.0.253,再綁定另外一個IP: 192.168.0.254做爲對外界的virtual IP,外界客戶經過該IP來訪問整個集羣系統。Real Server在lo上綁定IP:192.168.0.254,同時加入相應的路由。
LVS/DR方式與前面的LVS/TUN方式有些相似,前臺的Director機器也是隻須要接收和調度外界的請求,而不須要負責返回這些請求的反 饋結果,因此可以負載更多的Real Server,提升Director的調度處理能力,使集羣系統容納更多的Real Server。但LVS/DR須要改寫請求報文的MAC地址,因此全部服務器必須在同一物理網段內。
LVS架設的服務器集羣系統有三個部分組成:最前端的負載均衡層(Loader Balancer),中間的服務器羣組層,用Server Array表示,最底層的數據共享存儲層,用Shared Storage表示。在用戶看來全部的應用都是透明的,用戶只是在使用一個虛擬服務器提供的高性能服務。
LVS的體系架構如圖:
LVS的各個層次的詳細介紹:
Load Balancer層:位於整個集羣系統的最前端,有一臺或者多臺負載調度器(Director Server)組成,LVS模塊就安裝在Director Server上,而Director的主要做用相似於一個路由器,它含有完成LVS功能所設定的路由表,經過這些路由表把用戶的請求分發給Server Array層的應用服務器(Real Server)上。同時,在Director Server上還要安裝對Real Server服務的監控模塊Ldirectord,此模塊用於監測各個Real Server服務的健康情況。在Real Server不可用時把它從LVS路由表中剔除,恢復時從新加入。
Server Array層:由一組實際運行應用服務的機器組成,Real Server能夠是WEB服務器、MAIL服務器、FTP服務器、DNS服務器、視頻服務器中的一個或者多個,每一個Real Server之間經過高速的LAN或分佈在各地的WAN相鏈接。在實際的應用中,Director Server也能夠同時兼任Real Server的角色。
Shared Storage層:是爲全部Real Server提供共享存儲空間和內容一致性的存儲區域,在物理上,通常有磁盤陣列設備組成,爲了提供內容的一致性,通常能夠經過NFS網絡文件系統共享數 據,可是NFS在繁忙的業務系統中,性能並非很好,此時能夠採用集羣文件系統,例如Red hat的GFS文件系統,oracle提供的OCFS2文件系統等。
從整個LVS結構能夠看出,Director Server是整個LVS的核心,目前,用於Director Server的操做系統只能是Linux和FreeBSD,linux2.6內核不用任何設置就能夠支持LVS功能,而FreeBSD做爲 Director Server的應用還不是不少,性能也不是很好。對於Real Server,幾乎能夠是全部的系統平臺,Linux、windows、Solaris、AIX、BSD系列都能很好的支持。
LVS默認支持八種負載均衡策略,簡述以下:
調度器經過「輪詢」調度算法將外部請求按順序輪流分配到集羣中的真實服務器上,它均等地對待每一臺服務器,而無論服務器上實際的鏈接數和系統負載。
調度器經過「加權輪詢」調度算法根據真實服務器的不一樣處理能力來調度訪問請求。這樣能夠保證處理能力強的服務器能處理更多的訪問流量。調度器能夠自動問詢真實服務器的負載狀況,並動態地調整其權值。
調度器經過「最少鏈接」調度算法動態地將網絡請求調度到已創建的連接數最少的服務器上。若是集羣系統的真實服務器具備相近的系統性能,採用「最小鏈接」調度算法能夠較好地均衡負載。
在集羣系統中的服務器性能差別較大的狀況下,調度器採用「加權最少連接」調度算法優化負載均衡性能,具備較高權值的服務器將承受較大比例的活動鏈接負載。調度器能夠自動問詢真實服務器的負載狀況,並動態地調整其權值。
「基於局部性的最少連接」調度算法是針對目標IP地址的負載均衡,目前主要用於Cache集羣系統。該算法根據請求的目標IP地址找出該目標IP地 址最近使用的服務器,若該服務器是可用的且沒有超載,將請求發送到該服務器;若服務器不存在,或者該服務器超載且有服務器處於一半的工做負載,則用「最少 連接」 的原則選出一個可用的服務器,將請求發送到該服務器。
「帶複製的基於局部性最少連接」調度算法也是針對目標IP地址的負載均衡,目前主要用於Cache集羣系統。它與LBLC算法的不一樣之處是它要維護 從一個目標IP地址到一組服務器的映射,而LBLC算法維護從一個目標IP地址到一臺服務器的映射。該算法根據請求的目標IP地址找出該目標IP地址對應 的服務器組,按「最小鏈接」原則從服務器組中選出一臺服務器,若服務器沒有超載,將請求發送到該服務器;若服務器超載,則按「最小鏈接」原則從這個集羣中 選出一臺服務器,將該服務器加入到服務器組中,將請求發送到該服務器。同時,當該服務器組有一段時間沒有被修改,將最忙的服務器從服務器組中刪除,以下降 複製的程度。
「目標地址散列」調度算法根據請求的目標IP地址,做爲散列鍵(Hash Key)從靜態分配的散列表找出對應的服務器,若該服務器是可用的且未超載,將請求發送到該服務器,不然返回空。
「源地址散列」調度算法根據請求的源IP地址,做爲散列鍵(Hash Key)從靜態分配的散列表找出對應的服務器,若該服務器是可用的且未超載,將請求發送到該服務器,不然返回空。
除具有以上負載均衡算法外,還能夠自定義均衡策略。
通常做爲入口負載均衡或內部負載均衡,結合反向代理服務器使用。相關架構可參考Ngnix場景架構。
HAProxy也是使用較多的一款負載均衡軟件。HAProxy提供高可用性、負載均衡以及基於TCP和HTTP應用的代理,支持虛擬主機,是免 費、快速而且可靠的一種解決方案。特別適用於那些負載特大的web站點。運行模式使得它能夠很簡單安全的整合到當前的架構中,同時能夠保護你的web服務 器不被暴露到網絡上。
支持四種經常使用算法:
1.roundrobin:輪詢,輪流分配到後端服務器;
2.static-rr:根據後端服務器性能分配;
3.leastconn:最小鏈接者優先處理;
4.source:根據請求源IP,與Nginx的IP_Hash相似。