大型網站架構模式核心原理與新浪微博案例分析

時間 2020-02-04

原文原文鏈接

什麼是模式？每個模式描述了一個在咱們周圍不斷髮生的問題及該問題解決方案的核心。這樣，你就能一次又一次地使用該方案而沒必要作重複的工做。前端

也許互聯網產品不是隨便複製就能成功的，創新的產品更能爲用戶創造價值。可是網站架構卻有一些共同的模式，這些模式已經被許多大型網站一再驗證，經過對這些模式的學習，咱們能夠掌握大型網站架構的通常思路和解決方案，以指導咱們的架構設計。數據庫

1.網站架構模式

爲了解決大型網站面臨的高併發訪問、海量數據處理、高可靠運行等一系列問題與挑戰，大型互聯網公司在實踐中提出了許多解決方案，以實現網站高性能、高可用、易伸縮、可擴展、安全等各類技術架構目標。這些解決方案又被更多網站重複使用，從而逐漸造成大型網站架構模式。後端

1.1 分層

分層是企業應用系統中最多見的一種架構模式，將系統在橫向維度上切分紅幾個部分，每一個部分負責一部分相對比較單一的職責，而後經過上層對下層的依賴和調用組成個完整的系統。
分層結構在計算機世界中無處不在，網絡的7層通訊協議是一種分層結構；計算機硬件、操做系統、應用軟件也能夠看做是一種分層結構。在大型網站架構中也採用分層結構，將網站軟件系統分爲應用層、服務層、數據層，以下所示。瀏覽器

應用層	負責具體業務和視圖展現，如網站首頁及搜索輸入和結果展現
服務層	爲應用層提供服務支持，如用戶管理服務，購物車服務等
數據層	提供數據存儲訪問服務，如數據庫、緩存、文件、搜索引擎等

經過分層，能夠更好地將一個龐大的軟件系統切分紅不一樣的部分，便於分工合做開發和維護；各層之間具備必定的獨立性，只要維持調用接口不變，各層能夠根據具體問題獨立演化發展而不須要其餘層必須作出相應調整。
可是分層架構也有一些挑戰，就是必須合理規劃層次邊界和接口，在開發過程當中嚴格遵循分層架構的約束，禁止跨層次的調用（應用層直接調用數據層）及逆向調用（數據層調用服務層，或者服務層調用應用層）在實踐中，大的分層結構內部還能夠繼續分層，如應用層能夠再細分爲視圖層（美工負責）和業務邏輯層（工程師負責）；服務層也能夠細分爲數據接口層（適配各類輸入和輸出的數據格式）和邏輯處理層。
分層架構是邏輯上的，在物理部署上，三層結構能夠部署在同一個物理機器上，可是隨着網站業務的發展，必然須要對已經分層的模塊分離部署，即三層結構分別部署在不一樣的服務器上，使網站擁有更多的計算資源以應對愈來愈多的用戶訪問。因此雖然分層架構模式最初的目的是規劃軟件清晰的邏輯結構便於開發維護，但在網站的發展過程當中，分層結構對網站支持高併發向分佈式方向發展相當重要。所以在網站規模還很小的時候就應該採用分層的架構，這樣未來網站作大時纔能有更好地應對。緩存

1.2 分割

若是說分層是將軟件在橫向方面進行切分，那麼分割就是在縱向方面對軟件進行切分。
網站越大，功能越複雜，服務和數據處理的種類也越多，將這些不一樣的功能和服務分割開來，包裝成高內聚低耦合的模塊單元，一方面有助於軟件的開發和維護；另外一方面，便於不一樣模塊的分佈式部署，提升網站的併發處理能力和功能擴展能力。安全

大型網站分割的粒度可能會很小。好比在應用層，將不一樣業務進行分割，例如將購物、論壇、搜索、廣告分割成不一樣的應用，由獨立的團隊負責，部署在不一樣的服務器上；在同一個應用內部，若是規模龐大業務複雜，會繼續進行分割，好比購物業務，能夠進一步分割成機票酒店業務、3C業務，小商品業務等更細小的粒度。而即便在這個粒度上，仍是能夠繼續分割成首頁、搜索列表、商品詳情等模塊，這些模塊無論在邏輯上仍是物理部署上，均可以是獨立的。一樣在服務層也能夠根據須要將服務分割成合適的模塊。服務器

1.3 分佈式

對於大型網站，分層和分割的一個主要目的是爲了切分後的模塊便於分佈式部署，即將不一樣模塊部署在不一樣的服務器上，經過遠程調用協同工做。分佈式意味着可使用更多的計算機完成一樣的功能，計算機越多，CPU、內存、存儲資源也就越多，可以處理的併發訪問和數據量就越大，進而可以爲更多的用戶提供服務。
但分佈式在解決網站高併發問題的同時也帶來了其餘問題。首先，分佈式意味着服務調用必須經過網絡，這可能會對性能形成比較嚴重的影響；其次，服務器越多，服務器宕機的機率也就越大，一臺服務器宕機形成的服務不可用可能會致使不少應用不可訪問，使網站可用性下降；另外，數據在分佈式的環境中保持數據一致性也很是困難，分佈式事務也難以保證，這對網站業務正確性和業務流程有可能形成很大影響；分佈式還致使網站依賴錯綜複雜，開發管理維護困難。所以分佈式設計要根據具體狀況量力而行，切莫爲了分佈式而分佈式。
在網站應用中，經常使用的分佈式方案有如下幾種。網絡

分佈式應用和服務：將分層和分割後的應用和服務模塊分佈式部署，除了能夠改善網站性能和併發性、加快開發和發佈速度、減小數據庫鏈接資源消耗外；還可使不一樣應用複用共同的服務，便於業務功能擴展。數據結構
分佈式靜態資源：網站的靜態資源如 Js，CSS，Logo 圖片等資源獨立分佈式部署，並採用獨立的域名，即人們常說的動靜分離。靜態資源分佈式部署能夠減輕應用服務器的負載壓力；經過使用獨立域名加快瀏覽器併發加載的速度；由負責用戶體驗的團隊進行開發維護有利於網站分工合做，使不一樣技術工種術業有專攻。多線程
分佈式數據和存儲：大型網站須要處理以P爲單位的海量數據，單臺計算機沒法提供如此大的存儲空間，這些數據須要分佈式存儲。除了對傳統的關係數據庫進行分佈式部署外，爲網站應用而生的各類 NOSQL 產品幾乎都是分佈式的。
分佈式計算：嚴格說來，應用、服務、實時數據處理都是計算，網站除了要處理這些在線業務，還有很大一部分用戶沒有直觀感覺的後臺業務要處理，包括搜索引擎的索引構建、數據倉庫的數據分析統計等。這些業務的計算規模很是龐大，目前網站廣泛使用 Hadoop 及其 MapReduce 分佈式計算框架進行此類批處理計算，其特色是移動計算而不是移動數據，將計算程序分發到數據所在的位置以加速計算和分佈式計算。

此外，還有能夠支持網站線上服務器配置實時更新的分佈式配置；分佈式環境下實現併發和協同的分佈式鎖；支持雲存儲的分佈式文件系統等。

1.4 集羣

使用分佈式雖然已經將分層和分割後的模塊獨立部署，可是對於用戶訪問集中的模塊(好比網站的首頁)，還須要將獨立部署的服務器集羣化，即多臺服務器部署相同應用構成一個集羣，經過負載均衡設備共同對外提供服務。
由於服務器集羣有更多服務器提供相同服務，所以能夠提供更好的併發特性，當有更多用戶訪問的時候，只須要向集羣中加入新的機器便可。同時由於一個應用由多臺服務器提供，當某臺服務器發生故障時，負載均衡設備或者系統的失效轉移機制會將請求轉發到集羣中其餘服務器上，使服務器故障不影響用戶使用。因此在網站應用中，即便是訪問量很小的分佈式應用和服務，也至少要部署兩臺服務器構成一個小的集羣，目的就是提升系統的可用性。

1.5 緩存

緩存就是將數據存放在距離計算最近的位置以加快處理速度。緩存是改善軟件性能的第一手段，現代CPU愈來愈快的一個重要因素就是使用了更多的緩存，在複雜的軟件設計中，緩存幾乎無處不在。大型網站架構設計在不少方面都使用了緩存設計。

CDN：即內容分發網絡，部署在距離終端用戶最近的網絡服務商，用戶的網絡請求老是先到達他的網絡服務商那裏，在這裏緩存網站的一些靜態資源（較少變化的數據），能夠就近以最快速度返回給用戶，如視頻網站和門戶網站會將用戶訪問量大的熱點內容緩存在CDN。
反向代理：反向代理屬於網站前端架構的一部分，部署在網站的前端，當用戶請求到達網站的數據中心時，最早訪問到的就是反向代理服務器，這裏緩存網站的靜態資源，無需將請求繼續轉發給應用服務器就能返回給用戶。
本地緩存：在應用服務器本地緩存着熱點數據，應用程序能夠在本機內存中直接訪問數據，而無需訪問數據庫。
分佈式緩存：大型網站的數據量很是龐大，即便只緩存一小部分，須要的內存空間也不是單機能承受的，因此除了本地緩存，還須要分佈式緩存，將數據緩存在一個專門的分佈式緩存集羣中，應用程序經過網絡通訊訪問緩存數據。

使用緩存有兩個前提條件，一是數據訪問熱點不均衡，某些數據會被更頻繁的訪問，這些數據應該放在緩存中；二是數據在某個時間段內有效，不會很快過時，不然緩存的數據就會因已經失效而產生髒讀，影響結果的正確性。網站應用中，緩存除了能夠加快數據訪問速度，還能夠減輕後端應用和數據存儲的負載壓力，這一點對網站數據庫架構相當重要，網站數據庫幾乎都是按照有緩存的前提進行負載能力設計的。

1.6 異步

計算機軟件發展的一個重要目標和驅動力是下降軟件耦合性。事物之間直接關係越少，就越少被彼此影響，越能夠獨立發展。大型網站架構中，系統解耦合的手段除了前面提到的分層、分割、分佈等，還有一個重要手段是異步，業務之間的消息傳遞不是同步調用，而是將一個業務操做分紅多個階段，每一個階段之間經過共享數據的方式異步執行進行協做。
在單一服務器內部可經過多線程共享內存隊列的方式實現異步，處在業務操做前面的線程將輸出寫入到隊列，後面的線程從隊列中讀取數據進行處理；在分佈式系統中，多個服務器集羣經過分佈式消息隊列實現異步，分佈式消息隊列能夠看做內存隊列的分佈式部署。
異步架構是典型的生產者消費者模式，二者不存在直接調用，只要保持數據結構不變，彼此功能實現能夠隨意變化而不互相影響，這對網站擴展新功能很是便利。除此以外，使用異步消息隊列還有以下特性。

提升系統可用性。消費者服務器發生故障，數據會在消息隊列服務器中存儲堆積，生產者服務器能夠繼續處理業務請求，系統總體表現無端障。消費者服務器恢復正常後，繼續處理消息隊列中的數據。
加快網站響應速度。處在業務處理前端的生產者服務器在處理完業務請求後，將數據寫入消息隊列，不須要等待消費者服務器處理就能夠返回，響應延遲減小。
消除併發訪問高峯。用戶訪問網站是隨機的，存在訪問高峯和低谷，即便網站按照通常訪問高峯進行規劃和部署，也依然會出現突發事件，好比購物網站的促銷活動，微博上的熱點事件，都會形成網站併發訪問忽然增大，這可能會形成整個網站負載太重，響應延遲，嚴重時甚至會出現服務宕機的狀況。使用消息隊列將忽然增長的訪問請求數據放入消息隊列中，等待消費者服務器依次處理，就不會對整個網站負載形成太大壓力。

但須要注意的是，使用異步方式處理業務可能會對用戶體驗、業務流程形成影響，須要網站產品設計方面的支持。

1.7 冗餘

網站須要7×24小時連續運行，可是服務器隨時可能出現故障，特別是服務器規模比較大時，出現某臺服務器宕機是必然事件。要想保證在服務器宕機的狀況下網站依然能夠繼續服務，不丟失數據，就須要必定程度的服務器冗餘運行，數據冗餘備份，這樣當某臺服務器宕機時，能夠將其上的服務和數據訪問轉移到其餘機器上。
訪問和負載很小的服務也必須部署至少兩臺服務器構成一個集羣，其目的就是經過冗餘實現服務高可用。數據庫除了按期備份，存檔保存，實現冷備份外，爲了保證在線業務高可用，還須要對數據庫進行主從分離，實時同步實現熱備份。
爲了抵禦地震、海嘯等不可抗力致使的網站徹底癱瘓，某些大型網站會對整個數據中心進行備份，全球範圍內部署災備數據中心。網站程序和數據實時同步到多個災備數據中心。

1.8 自動化

在無人值守的狀況下網站能夠正常運行，一切均可以自動化是網站的理想狀態。目前大型網站的自動化架構設計主要集中在發佈運維方面。
發佈對網站都是頭等大事，許多網站故障出在發佈環節，網站工程師常常加班也是由於發佈不順利。經過減小人爲干預，使發佈過程自動化可有效減小故障。發佈過程包括諸多環節。自動化代碼管理，代碼版本控制、代碼分支建立合併等過程自動化，開發工程師只要提交本身參與開發的產品代號，系統就會自動爲其建立開發分支，後期會自動進行代碼合併；自動化測試，代碼開發完成，提交測試後，系統自動將代碼部署到測試環境，啓動自動化測試用例進行測試，向相關人員發送測試報告，向系統反饋測試結果；自動化安全檢測，安全檢測工具經過對代碼進行靜態安全掃描及部署到安全測試環境進行安全攻擊測試，評估其安全性；最後進行自動化部署，將工程代碼自動部署到線上生產環境。
此外，網站在運行過程當中可能會遇到各類問題：服務器宕機、程序Bug、存儲空間不足、忽然爆發的訪冋高峯。網站須要對線上生產環境進行自動化監控，對服務器進行心跳檢測，並監控其各項性能指標和應用程序的關鍵數據指標。若是發現異常、超出預設的閾值，就進行自動化報警，向相關人員發送報警信息，警告故障可能會發生。在檢測到故障發生後，系統會進行自動化失效轉移，將失效的服務器從集羣中隔離出去，再也不處理系統中的應用請求。待故障消除後，系統進行自動化失效恢復，從新啓動服務，同步數據保證數據的一致性。在網站遇到訪問高峯，超出網站最大處理能力時，爲了保證整個網站的安全可用，還會進行自動化降級，經過拒絕部分請求及關閉部分不重要的服務將系統負載降至一個安全的水平，必要時，還須要自動化分配資源，將空閒資源分配給重要的服務，擴大其部署規模。

1.9 安全

互聯網的開放特性使得其從誕生起就面對巨大的安全挑戰，網站在安全架構方面也積累了許多模式：經過密碼和手機校驗碼進行身份認證；登陸、交易等操做須要對網絡通訊進行加密，網站服務器上存儲的敏感數據如用戶信息等也進行加密處理；爲了防止機器人程序濫用網絡資源攻擊網站，網站使用驗證碼進行識別；對於常見的用於攻擊網站的 XSS 攻擊、SQL 注入、進行編碼轉換等相應處理；對於垃圾信息、敏感信息進行過濾；對交易轉帳等重要操做根據交易模式和交易信息進行風險控制。

2.架構模式在新浪微博的應用

短短几年時間新浪微博的用戶數就從零增加到數億，明星用戶的粉絲數達數千萬圍繞着新浪微博正在發展一個集社交、媒體、遊戲、電商等多位一體的生態系統。同大多數網站同樣，新浪微博也是從一個小網站發展起來的。簡單的LAMP（Linux+ Apache+ MySQL+PHP）架構，支撐起最初的新浪微博，應用程序用PHP開發，全部的數據，包括微博、用戶、關係都存儲在 MySQL數據庫中。

這樣簡單的架構沒法支撐新浪微博快速發展的業務需求，隨着訪問用戶的逐漸增長，系統不堪重負。新浪微博的架構在較短期內幾經重構，最後造成如今的架構，如圖所示。

系統分爲三個層次，最下層是基礎服務層，提供數據庫、緩存、存儲、搜索等數據服務，以及其餘一些基礎技術服務，這些服務支撐了新浪微博的海量數據和高併發訪問，是整個系統的技術基礎。
中間層是平臺服務和應用服務層，新浪微博的核心服務是微博、關係和用戶，它們是新浪微博業務大廈的支柱。這些服務被分割爲獨立的服務模塊，經過依賴調用和共享基礎數據構成新浪微博的業務基礎。
最上層是API和新浪微博的業務層，各類客戶端(包括Web網站)和第三方應用，經過調用AP集成到新浪微博的系統中，共同組成一個生態系統。
這些被分層和分割後的業務模塊與基礎技術模塊分佈式部署，每一個模塊都部署在組獨立的服務器集羣上，經過遠程調用的方式進行依賴訪問。新浪微博在早期還使用過一種叫做 MPSS（MultiPort Single Server，單服務器多端口）的分佈式集羣部署方案，在集羣中的多臺服務器上，每臺都部署多個服務，每一個服務使用不一樣的端口對外提供服務，經過這種方式使得有限的服務器能夠部署更多的服務實例，改善服務的負載均衡和可用性。如今網站應用中常見的將物理機虛擬化成多個虛擬機後，在虛擬機上部署應用的方案跟新浪微博的 MPSS 方案殊途同歸，只是更加簡單，還能在不一樣虛擬機上使用相同的端口號。

在新浪微博的早期架構中，微博發佈使用同步推模式，用戶發表微博後系統會當即將這條微博插入到數據庫全部粉絲的訂閱列表中，當用戶量比較大時，特別是明星用戶發佈微博時，會引發大量的數據庫寫操做，超出數據庫負載，系統性能急劇降低，用戶響應延遲加重。後來新浪微博改用異步推拉結合的模式，用戶發表微博後系統將微博寫入消息隊列後當即返回，用戶響應迅速，消息隊列消費者任務將微博推送給全部當前在線粉絲的訂閱列表中，非在線用戶登陸後再根據關注列表拉取微博訂閱列表。

因爲微博頻繁刷新，新浪微博使用多級緩存策略，熱門微博和明星用戶的微博緩存在全部的微博服務器上，在線用戶的微博和近期微博緩存在分佈式緩存集羣中，對於微博操做中最多見的「刷微博「操做，幾乎所有都是緩存訪問操做，能夠得到很好的系統性能。
爲了提升系統的總體可用性和性能，新浪微博啓用了多個數據中心。這些數據中心既是地區用戶訪問中心，用戶能夠就近訪問最近的數據中心以加快訪問速度，改善系統性能；同時也是數據冗餘複製的災備中心，全部的用戶和微博數據經過遠程消息系統在不一樣的數據中心之間同步，提升系統可用性。
同時，新浪微博還開發了一系列自動化工具，包括自動化監控，自動化發佈，自動化故障修復等，這些自動化工具還在持續開發中，以改善運維水平提升系統可用性。
因爲微博的開放特性，新浪微博也遇到了一系列的安全挑戰，垃圾內容、殭屍粉、微博攻擊從未中止，除了使用通常網站常見的安全策略，新浪微博在開放平臺上使用多級安全審覈的策略以保護系統和用戶。

3.小結

在程序設計與架構設計領域，模式正變得愈來愈受人關注，許多人寄但願經過模式一勞永逸地解決本身的問題。正確使用模式能夠更好地利用業界和前人的思想與實踐，用更少的時間開發出更好的系統，使設計者的水平也達到更高的境界。可是模式受其適用場景限制，對系統的要求和約束也不少，不恰當地使用模式只會畫虎不成反類犬，不但沒有解決原來的老問題，反而帶來了更棘手的新問題。
好的設計絕對不是模仿，不是生搬硬套某個模式，而是對問題深入理解之上的創造與創新，即便是「微創新」，也是讓人耳目一新的似曾相識。山寨與創新的最大區別不在因而否抄襲，是否模仿，而在於對問題和需求是否真正理解與把握。