感謝度娘,感謝原博主html
此文轉自:https://www.cnblogs.com/guixia621/p/9245596.html前端
大型網站的特色算法
大型網站通常有以下特色:數據庫
用戶多,分佈普遍設計模式
大流量,高併發瀏覽器
海量數據,服務高可用緩存
安全環境惡劣,易受網絡攻擊tomcat
功能多,變動快,頻繁發佈安全
從小到大,漸進發展性能優化
以用戶爲中心
免費服務,付費體驗
大型網站架構目標
大型網站的架構目標有以下幾個:
高性能:提供快速的訪問體驗。
高可用:網站服務一直能夠正常訪問。
可伸縮:經過硬件增長/減小,提升/下降處理能力。
擴展性:方便地經過新增/移除方式,增長/減小新的功能/模塊。
安全性:提供網站安全訪問和數據加密、安全存儲等策略。
敏捷性:隨需應變,快速響應。
大型網站架構模式
分層:通常可分爲應用層、服務層、數據層、管理層與分析層。
分割:通常按照業務/模塊/功能特色進行劃分,好比應用層分爲首頁、用戶中心。
分佈式:將應用分開部署(好比多臺物理機),經過遠程調用協同工做。
集羣:一個應用/模塊/功能部署多份(如:多臺物理機),經過負載均衡共同提供對外訪問。
緩存:將數據放在距離應用或用戶最近的位置,加快訪問速度。
異步:將同步的操做異步化。客戶端發出請求,不等待服務端響應,等服務端處理完畢後,使用通知或輪詢的方式告知請求方。通常指:請求——響應——通知模式。
冗餘:增長副本,提升可用性、安全性與性能。
安全:對已知問題有有效的解決方案,對未知/潛在問題創建發現和防護機制。
自動化:將重複的、不須要人工參與的事情,經過工具的方式,使用機器完成。
敏捷性:積極接受需求變動,快速響應業務發展需求。
高性能架構
高性能的架構是以用戶爲中心,提供快速的網頁訪問體驗,主要參數有較短的響應時間、較大的併發處理能力、較高的吞吐量與穩定的性能參數。
可分爲前端優化、瀏覽器優化、應用層優化、代碼層優化與存儲層優化:
前端優化:網站業務邏輯以前的部分。
瀏覽器優化:減小 HTTP 請求數,使用瀏覽器緩存,啓用壓縮,CSS JS 位置,JS 異步,減小 Cookie 傳輸;CDN 加速,反向代理。
應用層優化:處理網站業務的服務器。使用緩存,異步,集羣。
代碼優化:合理的架構,多線程,資源複用(對象池,線程池等),良好的數據結構,JVM調優,單例,Cache 等。
存儲優化:緩存、固態硬盤、光纖傳輸、優化讀寫、磁盤冗餘、分佈式存儲(HDFS)、NoSQL 等。
高可用架構
大型網站應該在任什麼時候候均可以正常訪問,正常提供對外服務。由於大型網站的複雜性,分佈式,廉價服務器,開源數據庫,操做系統等特色,要保證高可用是很困難的,也就是說網站的故障是不可避免的。
如何提升可用性,就是須要迫切解決的問題。首先,須要從架構級別考慮,在規劃的時候,就考慮可用性。
行業內通常用幾個 9 表示可用性指標,好比四個 9(99.99),一年內容許的不可用時間是 53 分鐘。
不一樣層級使用的策略不一樣,通常採用冗餘備份和失效轉移解決高可用問題:
應用層:通常設計爲無狀態的,對於每次請求,使用哪一臺服務器處理是沒有影響的。通常使用負載均衡技術(須要解決 Session 同步問題)實現高可用。
服務層:負載均衡,分級管理,快速失敗(超時設置),異步調用,服務降級,冪等設計等。
數據層:冗餘備份(冷,熱備[同步,異步],溫備),失效轉移(確認,轉移,恢復)。數據高可用方面著名的理論基礎是 CAP 理論。(持久性,可用性,數據一致性[強一致,用戶一致,最終一致])
可伸縮架構
伸縮性是指在不改變原有架構設計的基礎上,經過添加/減小硬件(服務器)的方式,提升/下降系統的處理能力:
應用層:對應用進行垂直或水平切分。而後針對單一功能進行負載均衡(DNS、HTTP[反向代理]、IP、鏈路層)。
服務層:與應用層相似。
數據層:分庫、分表、NoSQL 等;經常使用算法 Hash,一致性 Hash。
可擴展架構
能夠方便地進行功能模塊的新增/移除,提供代碼/模塊級別良好的可擴展性:
模塊化,組件化:高內聚,低耦合,提升複用性,擴展性。
穩定接口:定義穩定的接口,在接口不變的狀況下,內部結構能夠「隨意」變化。
設計模式:應用面向對象思想,原則,使用設計模式,進行代碼層面的設計。
消息隊列:模塊化的系統,經過消息隊列進行交互,使模塊之間的依賴解耦。
分佈式服務:公用模塊服務化,提供其餘系統使用,提升可重用性,擴展性。
安全架構
對已知問題有有效的解決方案,對未知/潛在問題創建發現和防護機制。對於安全問題,首先要提升安全意識,創建一個安全的有效機制,從政策層面,組織層面進行保障。
好比服務器密碼不能泄露,密碼每個月更新,而且三次內不能重複;每週安全掃描等。
以制度化的方式,增強安全體系的建設。同時,須要注意與安全有關的各個環節。
安全問題不容忽視,包括基礎設施安全,應用系統安全,數據保密安全等:
基礎設施安全:硬件採購,操做系統,網絡環境方面的安全。通常採用正規渠道購買高質量的產品,選擇安全的操做系統,及時修補漏洞,安裝殺毒軟件防火牆。
防範病毒,後門。設置防火牆策略,創建 DDOS 防護系統,使用攻擊檢測系統,進行子網隔離等手段。
應用系統安全:在程序開發時,對已知經常使用問題,使用正確的方式,在代碼層面解決掉。
防止跨站腳本攻擊(XSS),注入攻擊,跨站請求僞造(CSRF),錯誤信息,HTML 註釋,文件上傳,路徑遍歷等。
還可使用 Web 應用防火牆(好比:ModSecurity),進行安全漏洞掃描等措施,增強應用級別的安全。
數據保密安全:存儲安全(存儲在可靠的設備,實時,定時備份),保存安全(重要的信息加密保存,選擇合適的人員複雜保存和檢測等),傳輸安全(防止數據竊取和數據篡改)。
經常使用的加解密算法(單項散列加密[MD五、SHA],對稱加密[DES、3DES、RC]),非對稱加密[RSA]等。
敏捷性
網站的架構設計,運維管理要適應變化,提供高伸縮性,高擴展性。方便的應對快速的業務發展,突增高流量訪問等要求。
除上面介紹的架構要素外,還須要引入敏捷管理,敏捷開發的思想。使業務,產品,技術,運維統一塊兒來,隨需應變,快速響應。
大型架構舉例
以上採用七層邏輯架構:
第一層客戶層:支持 PC 瀏覽器和手機 App。差異是手機 App 能夠直接經過IP訪問,反向代理服務器。
第二層前端層:使用 DNS 負載均衡,CDN 本地加速以及反向代理服務。
第三層應用層:網站應用集羣;按照業務進行垂直拆分,好比商品應用,會員中心等。
第四層服務層:提供公用服務,好比用戶服務,訂單服務,支付服務等。
第五層數據層:支持關係型數據庫集羣(支持讀寫分離),NOSQL 集羣,分佈式文件系統集羣;以及分佈式 Cache。
第六層大數據存儲層:支持應用層和服務層的日誌數據收集,關係數據庫和 NOSQL 數據庫的結構化和半結構化數據收集。
第七層大數據處理層:經過 Mapreduce 進行離線數據分析或 Storm 實時數據分析,並將處理後的數據存入關係型數據庫。
(實際使用中,離線數據和實時數據會按照業務要求進行分類處理,並存入不一樣的數據庫中,供應用層或服務層使用)
大型電商網站系統架構演變過程
一個成熟的大型網站(如淘寶、天貓、騰訊等)的系統架構並非一開始設計時就具有完整的高性能、高可用、高伸縮等特性的,它是隨着用戶量的增長,業務功能的擴展逐漸演變完善的。
在這個過程當中,開發模式、技術架構、設計思想也發生了很大的變化,就連技術人員也從幾我的發展到一個部門甚至一條產品線。
因此成熟的系統架構是隨着業務的擴展而逐步完善的,並非一蹴而就;不一樣業務特徵的系統,會有各自的側重點。
例如淘寶,要解決海量的商品信息的搜索、下單、支付;例如騰訊,要解決數億用戶的實時消息傳輸;百度要處理海量的搜索請求。
他們都有各自的業務特性,系統架構也有所不一樣。儘管如此,咱們也能夠從這些不一樣的網站背景中,找出其中共用的技術。
這些技術和手段普遍運用在大型網站系統的架構中,下面就經過介紹大型網站系統的演化過程,來認識這些技術和手段。
最開始的網站架構
最初的架構,應用程序、數據庫、文件都部署在一臺服務器上,以下圖:
應用、數據、文件分離
隨着業務的擴展,一臺服務器已經不能知足性能需求,因此將應用程序、數據庫、文件各自部署在獨立的服務器上,而且根據服務器的用途配置不一樣的硬件,達到最佳的性能效果.
利用緩存改善網站性能
在硬件優化性能的同時,也經過軟件進行性能優化,在大部分的網站系統中,都會利用緩存技術改善系統的性能。
使用緩存主要源於熱點數據的存在,大部分網站訪問都遵循 28 原則(即 80% 的訪問請求,最終落在 20% 的數據上),因此咱們能夠對熱點數據進行緩存,減小這些數據的訪問路徑,提升用戶體驗
緩存實現常見的方式是本地緩存、分佈式緩存。固然還有 CDN、反向代理等。
本地緩存,顧名思義是將數據緩存在應用服務器本地,能夠存在內存中,也能夠存在文件,OSCache 就是經常使用的本地緩存組件。
本地緩存的特色是速度快,但由於本地空間有限因此緩存數據量也有限。
分佈式緩存的特色是,能夠緩存海量的數據,而且擴展很是容易,在門戶類網站中經常被使用,速度按道理沒有本地緩存快,經常使用的分佈式緩存是 Memcached、Redis。
使用集羣改善應用服務器性能
應用服務器做爲網站的入口,會承擔大量的請求,咱們每每經過應用服務器集羣來分擔請求數。
應用服務器前面部署負載均衡服務器調度用戶請求,根據分發策略將請求分發到多個應用服務器節點。
經常使用的負載均衡技術硬件的有 F5,價格比較貴,軟件的有 LVS、Nginx、HAProxy。
LVS 是四層負載均衡,根據目標地址和端口選擇內部服務器,Nginx 和 HAProxy 是七層負載均衡,能夠根據報文內容選擇內部服務器。
所以 LVS 分發路徑優於 Nginx 和 HAProxy,性能要高些;而 Nginx 和 HAProxy 則更具配置性,如能夠用來作動靜分離(根據請求報文特徵,選擇靜態資源服務器仍是應用服務器)。
數據庫讀寫分離和分庫分表
隨着用戶量的增長,數據庫成爲最大的瓶頸。改善數據庫性能經常使用的手段是進行讀寫分離以及分庫分表,讀寫分離顧名思義就是將數據庫分爲讀庫和寫庫,經過主備功能實現數據同步。
分庫分表則分爲水平切分和垂直切分,水平切分是對一個數據庫特大的表進行拆分,例如用戶表。
垂直切分則是根據業務的不一樣來切分,如用戶業務、商品業務相關的表放在不一樣的數據庫中。
使用 CDN 和反向代理提升網站性能
假如咱們的服務器都部署在成都的機房,對於四川的用戶來講訪問是較快的,而對於北京的用戶訪問是較慢的。
這是因爲四川和北京分別屬於電信和聯通的不一樣發達地區,北京用戶訪問須要經過互聯路由器通過較長的路徑才能訪問到成都的服務器,返回路徑也同樣,因此數據傳輸時間比較長。
對於這種狀況,經常使用 CDN 解決,CDN 將數據內容緩存到運營商的機房,用戶訪問時先從最近的運營商獲取數據,這樣大大減小了網絡訪問的路徑。比較專業的 CDN 運營商有藍汛、網宿。
而反向代理,則是部署在網站的機房,當用戶請求達到時首先訪問反向代理服務器,反向代理服務器將緩存的數據返回給用戶。
若是沒有緩存數據纔會繼續訪問應用服務器獲取,這樣作減小了獲取數據的成本。反向代理有 Squid、Nginx。
使用分佈式文件系統
用戶一每天增長,業務量愈來愈大,產生的文件愈來愈多,單臺的文件服務器已經不能知足需求,這時就須要分佈式文件系統的支撐。經常使用的分佈式文件系統有 GFS、HDFS、TFS。
使用 NoSQL 和搜索引擎
對於海量數據的查詢和分析,咱們使用 NoSQL 數據庫加上搜索引擎能夠達到更好的性能。並非全部的數據都要放在關係型數據中。
經常使用的 NoSQL 有 MongoDB、HBase、Redis,搜索引擎有 Lucene、Solr、Elasticsearch。
將應用服務器進行業務拆分
隨着業務進一步擴展,應用程序變得很是臃腫,這時咱們須要將應用程序進行業務拆分,如百度分爲新聞、網頁、圖片等業務。
每一個業務應用負責相對獨立的業務運做。業務之間經過消息進行通訊或者共享數據庫來實現。
搭建分佈式服務
這時咱們發現各個業務應用都會使用到一些基本的業務服務,例如用戶服務、訂單服務、支付服務、安全服務,這些服務是支撐各業務應用的基本要素。
咱們將這些服務抽取出來利用分步式服務框架搭建分佈式服務。阿里的 Dubbo 是一個不錯的選擇。
大型電商網站架構案例
採用電商案例的緣由
分佈式大型網站,目前看主要有幾類:
大型門戶,好比網易,新浪等。
SNS 網站,好比校內,開心網等。
電商網站,好比阿里巴巴,京東商城,國美在線,汽車之家等。
大型門戶通常是新聞類信息,可使用 CDN,靜態化等方式優化,開心網等交互性比較多,可能會引入更多的 NoSQL,分佈式緩存,使用高性能的通訊框架等。
電商網站具有以上兩類的特色,好比產品詳情能夠採用 CDN,靜態化,交互性高的須要採用 NoSQL 等技術。所以,咱們採用電商網站做爲案例,進行分析。
電商網站需求
客戶需求:
創建一個全品類的電子商務網站(B2C),用戶能夠在線購買商品,能夠在線支付,也能夠貨到付款。
用戶購買時能夠在線與客服溝通。
用戶收到商品後,能夠給商品打分,評價。
目前有成熟的進銷存系統;須要與網站對接。
但願可以支持 3~5 年,業務的發展。
預計 3~5 年,用戶數達到 1000 萬。
按期舉辦雙 十一、雙 十二、三八男人節等活動。
其餘的功能參考京東或國美在線等網站。
客戶就是客戶,不會告訴你具體要什麼,只會告訴你他想要什麼,咱們不少時候要引導,挖掘客戶的需求。好在提供了明確的參考網站。
所以,下一步要進行大量的分析,結合行業,以及參考網站,給客戶提供方案。
需求功能矩陣
這是需求管理傳統的作法,會使用用例圖或模塊圖(需求列表)進行需求的描述。
這樣作經常忽視掉一個很重要的需求(非功能需求),所以推薦你們使用需求功能矩陣,進行需求描述。
本電商網站的需求矩陣以下:
網站初級架構
通常網站,剛開始的作法,是三臺服務器,一臺部署應用,一臺部署數據庫,一臺部署 NFS 文件系統。
這是前幾年比較傳統的作法,以前見到一個網站 10 萬多會員,垂直服裝設計門戶,N 多圖片。
使用了一臺服務器部署了應用,數據庫以及圖片存儲。出現了不少性能問題,以下圖:
可是,目前主流的網站架構已經發生了翻天覆地的變化。通常都會採用集羣的方式,進行高可用設計。
至少是上面這個樣子:
使用集羣對應用服務器進行冗餘,實現高可用。(負載均衡設備可與應用一塊部署)
使用數據庫主備模式,實現數據備份和高可用。
系統容量預估
預估步驟:
註冊用戶數-日均 UV 量-每日的 PV 量-天天的併發量。
峯值預估:日常量的 2~3 倍。
根據併發量(併發,事務數),存儲容量計算系統容量。
根據客戶需求:3~5 年用戶數達到 1000 萬註冊用戶,能夠作每秒併發數預估:
天天的 UV 爲 200 萬(二八原則)。
每日天天點擊瀏覽 30 次。
PV 量:200*30=6000 萬。
集中訪問量:24*0.2=4.8 小時會有 6000 萬*0.8=4800 萬(二八原則)。
每分併發量:4.8*60=288 分鐘,每分鐘訪問 4800/288=16.7 萬(約等於)。
每秒併發量:16.7萬/60=2780(約等於)。
假設:高峯期爲日常值的三倍,則每秒的併發數能夠達到 8340 次。
1 毫秒=1.3 次訪問。
沒好好學數學後悔了吧?!(不知道以上算是否有錯誤,呵呵~~)
服務器預估:(以 Tomcat 服務器舉例)
按一臺 Web 服務器,支持每秒 300 個併發計算。日常須要 10 臺服務器(約等於);[tomcat 默認配置是 150],高峯期須要 30 臺服務器。
容量預估:70/90 原則
系統 CPU 通常維持在 70% 左右的水平,高峯期達到 90% 的水平,是不浪費資源,並比較穩定的。內存,IO 相似。
以上預估僅供參考,由於服務器配置,業務邏輯複雜度等都有影響。在此 CPU,硬盤,網絡等再也不進行評估。
網站架構分析
根據以上預估,有幾個問題:
須要部署大量的服務器,高峯期計算,可能要部署 30 臺 Web 服務器。而且這三十臺服務器,只有秒殺,活動時纔會用到,存在大量的浪費。
全部的應用部署在同一臺服務器,應用之間耦合嚴重。須要進行垂直切分和水平切分。
大量應用存在冗餘代碼。
服務器 Session 同步耗費大量內存和網絡帶寬。
數據須要頻繁訪問數據庫,數據庫訪問壓力巨大。
大型網站通常須要作如下架構優化(優化是架構設計時,就要考慮的,通常從架構/代碼級別解決,調優主要是簡單參數的調整,好比 JVM 調優;若是調優涉及大量代碼改造,就不是調優了,屬於重構):
業務拆分
應用集羣部署(分佈式部署,集羣部署和負載均衡)
多級緩存
單點登陸(分佈式 Session)
數據庫集羣(讀寫分離,分庫分表)
服務化
消息隊列
其餘技術
網站架構優化
業務拆分
根據業務屬性進行垂直切分,劃分爲產品子系統,購物子系統,支付子系統,評論子系統,客服子系統,接口子系統(對接如進銷存,短信等外部系統)。
根據業務子系統進行等級定義,可分爲:
核心系統,產品子系統,購物子系統,支付子系統。
非核心繫統,評論子系統,客服子系統,接口子系統。
業務拆分做用:提高爲子系統可由專門的團隊和部門負責,專業的人作專業的事,解決模塊之間耦合以及擴展性問題;每一個子系統單獨部署,避免集中部署致使一個應用掛了,所有應用不可用的問題。
等級定義做用:用於流量突發時,對關鍵應用進行保護,實現優雅降級;保護關鍵應用不受到影響。
拆分後的架構圖:
參考部署方案 2:
如上圖每一個應用單獨部署,核心系統和非核心繫統組合部署。
應用集羣部署(分佈式,集羣,負載均衡)
分佈式部署:將業務拆分後的應用單獨部署,應用直接經過 RPC 進行遠程通訊。
集羣部署:電商網站的高可用要求,每一個應用至少部署兩臺服務器進行集羣部署。
負載均衡:是高可用系統必須的,通常應用經過負載均衡實現高可用,分佈式服務經過內置的負載均衡實現高可用,關係型數據庫經過主備方式實現高可用。
集羣部署後架構圖:
多級緩存
緩存按照存放的位置通常可分爲兩類本地緩存和分佈式緩存。本案例採用二級緩存的方式,進行緩存的設計。
一級緩存爲本地緩存,二級緩存爲分佈式緩存。(還有頁面緩存,片斷緩存等,那是更細粒度的劃分)
一級緩存,緩存數據字典,和經常使用熱點數據等基本不可變/有規則變化的信息,二級緩存緩存須要的全部緩存。
當一級緩存過時或不可用時,訪問二級緩存的數據。若是二級緩存也沒有,則訪問數據庫。
緩存的比例,通常 1:4,便可考慮使用緩存。(理論上是 1:2 便可):
根據業務特性可以使用如下緩存過時策略:
緩存自動過時
緩存觸發過時
單點登陸(分佈式 Session)
系統分割爲多個子系統,獨立部署後,不可避免的會遇到會話管理的問題。通常可採用 Session 同步,Cookies,分佈式 Session 方式。電商網站通常採用分佈式 Session 實現。
再進一步能夠根據分佈式 Session,創建完善的單點登陸或帳戶管理系統。
流程說明如上圖:
用戶第一次登陸時,將會話信息(用戶 ID 和用戶信息),好比以用戶 ID 爲 Key,寫入分佈式 Session。
用戶再次登陸時,獲取分佈式 Session,是否有會話信息,若是沒有則調到登陸頁。
通常採用 Cache 中間件實現,建議使用 Redis,所以它有持久化功能,方便分佈式 Session 宕機後,能夠從持久化存儲中加載會話信息。
存入會話時,能夠設置會話保持的時間,好比 15 分鐘,超事後自動超時。
結合 Cache 中間件,實現的分佈式 Session,能夠很好的模擬 Session 會話。
數據庫集羣(讀寫分離,分庫分表)
大型網站須要存儲海量的數據,爲達到海量數據存儲,高可用,高性能通常採用冗餘的方式進行系統設計。通常有兩種方式讀寫分離和分庫分表。
讀寫分離:通常解決讀比例遠大於寫比例的場景,可採用一主一備,一主多備或多主多備方式。
本案例在業務拆分的基礎上,結合分庫分表和讀寫分離,如上圖:
業務拆分後:每一個子系統須要單獨的庫。
若是單獨的庫太大,能夠根據業務特性,進行再次分庫,好比商品分類庫,產品庫。
分庫後,若是表中有數據量很大的,則進行分表,通常能夠按照 ID,時間等進行分表;(高級的用法是一致性 Hash)
在分庫、分表的基礎上,進行讀寫分離。
相關中間件可參考 Cobar(阿里,目前已不在維護),TDDL(阿里),Atlas(奇虎360),MyCat。
分庫分表後序列的問題,JOIN,事務的問題,會在分庫分表主題分享中介紹。
服務化
將多個子系統公用的功能/模塊,進行抽取,做爲公用服務使用。好比本案例的會員子系統就能夠抽取爲公用的服務。
消息隊列
消息隊列能夠解決子系統/模塊之間的耦合,實現異步,高可用,高性能的系統。它是分佈式系統的標準配置。
本案例中,消息隊列主要應用在購物,配送環節:
用戶下單後,寫入消息隊列,後直接返回客戶端。
庫存子系統:讀取消息隊列信息,完成減庫存。
配送子系統:讀取消息隊列信息,進行配送。
目前使用較多的 MQ 有 Active MQ、Rabbit MQ、Zero MQ、MS MQ 等,須要根據具體的業務場景進行選擇,建議能夠研究下 Rabbit MQ。
其餘架構(技術)
除了以上介紹的業務拆分,應用集羣,多級緩存,單點登陸,數據庫集羣,服務化,消息隊列外,還有 CDN,反向代理,分佈式文件系統,大數據處理等系統。
架構彙總
大型網站的架構是根據業務需求不斷完善的,根據不一樣的業務特徵會作特定的設計和考慮。