【系統架構】 大型網站架構技術一覽

 

本文地址php

原文地址html

 

      點擊關注微信公衆號 wenyuqinghuai前端

 

  對於大型網站技術的理解,能夠從架構技術原理的組織方式以架構要素做爲維度,從系統性能、可用性、伸縮性、擴展性、安全性幾個角度闡述網站架構的技術要點。還有另外一種較爲直觀的組織方式,是從不一樣架構層次所使用的網站架構技術這個維度進行描述的。java

        網站系統架構層次以下圖所示:mysql


        這個網站架構層次,共分爲8個層次,其中數據庫中心機房架構是上面全部架構的物理基礎;安全架構和數據庫採集監控架構是貫穿在各個層次的重要保障,這兩個架構主要解決五個業務相關層次的安全問題和數據採集監控問題,是一直都須要關注的地方;
        對於目前的大型網絡來看,能夠分爲前端、應用層、服務層、存儲層、後臺等5個方面,簡單來講,前端存放的是靜態網頁,不涉及業務,就是爲了客戶端可以及時響應,並展示一些靜態內容;應用層是處理業務邏輯的地方,前端開發的代碼,主要就是發佈在這個地方,實際用戶的各類業務處理,也主要在這個地方進行;服務層介於應用層和存儲層之間,主要爲二者提供各類分佈式服務,好比分佈式緩存,能減小存儲層的壓力,並儘快響應應用層的請求,提升性能;存儲層是存放各類業務數據的地方,包括關係型、非關係型數據庫、文件已經它們之間的數據同步;上面4個層次能夠說是實時的業務功能,有一個層次出現問題,就會直接影響用戶體驗,在這4個層次後面,還有一個後臺,它是不直接與用戶溝通,但從上面的業務中經過搜索引擎、數據倉庫、推薦系統等,創造更加有價值的信息,在後臺爲業務提供支撐。jquery


1.前端架構



        (包括:瀏覽器優化技術、CDN、動靜分離,靜態資源獨立部署、圖片服務、反向代理、DNS等7種技術)
        前端指用戶請求到達網站應用服務器以前經歷的環節,一般不包含網站業務邏輯,不處理動態內容。通常打開網頁或界面時,一輸入URL就能夠看到的信息,就屬於這部分,而後再慢慢加載的,就是後面業務層的內容了,由於內容都是靜態的,不會發生改變,全部能夠在各個地方準備好,放在CDN中,達到瞬時響應的效果。爲了實現這樣的效果,有下面幾種架構技術:sql


瀏覽器優化技術
        並非優化瀏覽器,而是經過優化響應頁面,加快瀏覽器頁面的加載和顯示,經常使用的有頁面緩存、合併HTTP減小請求次數、使用頁面壓縮等。數據庫


CDN
        內容分發網絡,部署在網絡運營商機房,經過將靜態頁面內容分發到離用戶最近最近的CDN服務器,使用戶能夠經過最短路徑獲取內容。瀏覽器


動靜分離,靜態資源獨立部署
        靜態資源,如JS、CSS等文件部署在專門的服務器集羣上,和Web應用動態內容服務分離,並使用專門的(二級)域名。緩存


圖片服務
        圖片不是指網站Logo、按鈕圖標等,這些文件屬於上面提到的靜態資源,應該和JS、CSS部署在一塊兒。這裏的圖片指用戶上傳的圖片,如產品圖片、用戶頭像等,圖片服務一樣適用獨立部署的圖片服務器集羣,並使用獨立(二級)域名。


反向代理
        部署在網站機房,在應用服務器、靜態資源服務器、圖片服務器以前,提供頁面緩存服務。


DNS
        域名服務,將域名解析成IP地址,利用DNS能夠實現DNS負載均衡,配置CDN也須要修改DNS,使域名解析後指向CDN服務器。


2.應用層架構



        (包括:開發框架、頁面渲染、負載均衡、Session管理、動態頁面靜態化、業務拆分、虛擬化服務器等7種技術)
        應用層是處理網站主要業務邏輯的地方。通常說的使用PHP或則Java等技術實現的網絡邏輯和前端框架,就是指這部分的內容,該部分是交互式業務實現的主要層次,相應的架構技術有:

開發框架
        網站業務是多變的,網站的大部分軟件工程師都是在加班加點開發網站業務,一個好的開發框架相當重要。一個號的開發框架應該可以分離關注面,使美工、開發工程師能夠各司其事,易於協做。同時還應該內置一些安全策略,防禦Web用攻擊。


頁面渲染
        將分別開發維護的動態內容和靜態頁面模板集成起來,組合成最終顯示給用戶的完整頁面。


負載均衡
        將多臺應用服務器組成一個集羣,經過負載均衡技術將用戶請求分發到不一樣的服務器上,以應對大量用戶同時訪問時產生的高併發負載壓力。


Session管理
        爲了實現高可用的應用服務器集羣,應用服務器一般設計爲無狀態,不保存用戶請求上下文信息,可是網站業務一般須要保持用戶會話信息,須要專門的機制管理Session,使集羣內甚至跨集羣的應用服務器能夠共享Session。


動態頁面靜態化
        對於訪問量特別大而更新又不很頻繁的動態頁面,能夠將其靜態化,即生成一個靜態頁面,利用靜態頁面的優化手段加速用戶訪問,如反向代理、CDN、瀏覽器緩存等。


業務拆分
        將複雜而龐大的業務拆分開來,造成多個規模較小的產品,獨立開發、部署、維護,除了下降系統耦合度,也便於數據庫業務分庫。按業務對關係數據庫進行拆分,技術難度相對較小,而效果又相對較好。


虛擬化服務器
        將一臺物理服務器虛擬化成多態虛擬服務器,對於併發訪問較低的業務,更容易用較少的資源構架高可用的應用服務器集羣。


3.服務層架構



        (包括:分佈式消息、分佈式服務、分佈式緩存、分佈式配置等4種技術)
        提供基礎服務,供應用層調用,完成網站業務。服務層介於應用層和存儲層之間,顧名思義就是爲應用層提供各類服務的,而服務層自己內容的來源,又可能與存儲層有關,好比緩存就是將存儲層中的一部分數據作以加工和展示,供應用層快速調用的。服務層的架構技術主要是幾種分佈式的服務功能:

分佈式消息
        利用消息隊列機制,實現業務和業務、業務和服務之間的異步消息發送及低耦合的業務關係。


分佈式服務
        提供高性能、低耦合、易複用、易管理的分佈式服務,在網站實現面向服務架構(SOA)。


分佈式緩存
        經過可伸縮的服務器集羣提供大規模熱點數據的緩存服務,是網站性能優化的重要手段。


分佈式配置
        系統運行須要配置許多參數,若是這些參數須要修改,好比分佈式緩存集羣加入新的緩存服務器,須要修改應用程序客戶端的緩存服務器列表配置,並重啓應用程序服務器。分佈式配置在系統運行期提供配置動態推送服務,將配置修改實時推送到應用系統,無需重啓服務器。


4.存儲層架構



        (包括:分佈式文件、關係數據庫、NoSQL數據庫、數據同步等4種技術)
        提供數據、文件的持久化存儲訪問與管理服務。該層次也是通常意義上的數據庫層,主要用來存放各類數據的,固然在大型網站中數據層的概念,不只包括傳統關係型數據庫,還包括分佈式文件數據,nosql數據庫以及數據同步技術。存儲層的架構技術主要有:

分佈式文件
        網站在線業務須要存儲的文件大部分都是圖片、網頁、視頻等比較小的文件,可是這些文件的數量很是龐大,並且一般都在持續增長,須要伸縮性設計比較好的分佈式文件系統。



關係數據庫
        大部分萬丈的主要業務是基於關係數據庫開發的,可是關係數據庫對集羣伸縮性的支持表較差。經過在應用程序的數據訪問層增長數據庫訪問的路由功能,根據業務配置將數據庫訪問路由到不一樣的物理數據庫上,可實現關係數據庫的分佈式訪問。


NoSQL數據庫
        目前各類NoSQL數據庫層出不窮,在內存管理、數據模型、集羣分佈式管理等方面各有優點,不過從社區活動性角度看,Hbase無疑是目前最好的。


數據同步
        在支持全球範圍內數據共享的分佈式數據庫技術成熟以前,擁有多個數據中心的網站必須在多個數據中心之間進行數據同步,以保證每一個數據中心都擁有完整的數據。在實踐中,爲了減輕數據庫壓力,將數據庫的事物日誌(或者NoSQL的寫操做Log)同步到其餘數據中心,根據Log進行數據重演,實現數據同步。


5.後臺架構



        (包括:搜索引擎、數據倉庫、推薦系統等3種技術)
        網站應用中,除了要處理用戶的實時訪問請求外,還有一些後臺非實時數據分析要處理。後臺架構主要是進行一些非實時操做,對前端業務處理提供支撐,主要的架構技術有:

搜索引擎
        即便是網站內部的搜索引擎,也須要進行數據增量更新及全量更新、構建索引等。這些操做經過後臺系統定時執行。


數據倉庫
        根據離線數據,提供數據分析與數據挖掘服務。


推薦系統
        社交網站及購物網站經過挖掘人與人之間的關係,人和商品之間的關係,發展潛在的人際關係和購物興趣,爲用戶提供個性化推薦服務。


6.數據採集與監控



        (包括:瀏覽器數據採集、服務器業務數據採集、服務器性能數據採集、系統監控、系統報警等5種技術)
        監控網站訪問狀況與系統運行狀況,爲網站運營決策和運維管理提供支持保障。數據採集與監控存在於整個業務架構的生命週期,在業務上線後,業務運行狀態是否正常,運維人員平常作的主要工做,就是數據採集與監控,在業務系統發生故障或者性能問題時,也須要改系統進行支持和問題定位,進而解決問題。該層次的主要架構技術有:

瀏覽器數據採集
        經過在網站頁面中嵌入JS腳本採集用戶瀏覽器環境與操做記錄,分析用戶行爲。


服務器業務數據採集
        服務器業務數據包括兩種,一種是採集在服務器端記錄的用戶請求操做日誌;一種是採集應用程序運行期業務數據,好比待處理消息數目等。


服務器性能數據採集
        採集服務器性能數據,如系統負載、內存使用率、網卡流量等。


系統監控
        將前述採集的數據以圖表的方式展現,以便運營和運維人員監控網站運行情況,作到這一步僅僅是系統監視。更先進的作法是根據採集的數據進行自動化運維,自動處理系統異常情況,是吸納自動化控制。


系統報警
        若是採集來的數據超過預設的正常狀況的閥值,好比系統負載太高,就經過郵件、短信、語音電話等方式發出警報信號,等待工程師干預。


7.安全架構



        (包括:Web攻擊、數據保護等2種技術)
        保護網站免遭攻擊及敏感信息泄露。安全也業務可以正常運行的一個很是重要的問題,安全主要有兩方面,一是來自外邊的攻擊與防禦,會影響到網站業務的可用性和性能;二是網站內部的數據安裝和保護,會影響到數據層總的敏感信息。安全架構技術主要有:

Web攻擊
        以HTTP請求的方式發起的攻擊,危害最大的就是XSS和SQL注入攻擊。可是隻要措施得當,這兩種攻擊都是比較容易防範的。


數據保護
        敏感信息加密傳輸與存儲,保護網站和用戶資產。


8.數據中心機房架構



        (包括:機房架構、機櫃架構、服務器架構等3種技術)
        大型網站須要的服務器規模數以十萬計,機房物理架構也須要關注。對於大型網絡系統來講,物理服務器數量必然是很是巨大的,這樣在機房、機櫃、服務器等層次都要有相應的規劃,這樣才能比較好的支撐上面的各個層次。

機房架構
        對於一個擁有十萬臺服務器的大型網站,每臺服務器耗電(包括服務器自己耗電及空調耗電)每一年大約須要人民幣2000元,那麼網站每一年機房電費就須要兩億人民幣。數據中心能耗問題日趨嚴重,Google、Facebook選擇數據中心地理位置的時候趨向選擇散熱良好,供電充裕的地方。


機櫃架構
        包括機櫃大小,網線佈局、指示燈規格、不間斷電源、電壓規格(是48V直流電仍是220V民用交流電)等一系列問題。


服務器架構

          大型網站因爲服務器採購規模龐大,大都採用定製服務器的方式代替購買服務器整機。根據網站應用需求,定製硬盤、內存、甚至CPU,同時去除沒必要要的外設接口(顯示器輸出接口,鼠標、鍵盤輸入接口),並使空間結構利於散熱。