因爲分佈式系統所涉及到的領域衆多,知識龐雜,不少新人在最初每每找不到頭緒,不知道從何處下手來一步步學習分佈式架構。mysql
本文試圖經過一個最簡單的、經常使用的分佈式系統,來闡述分佈式系統中的一些基本問題。程序員
下圖爲一箇中大型網站/App的基本架構:
算法
在這個架構中,涉及到以上所列的基本問題:sql
負載均衡是分佈式系統中的一個最最基本的問題。在上圖中:數據庫
網關須要把請求分發給不一樣的Tomcat;
Tomcat須要把收到的請求,分發給不一樣的Service;編程
這都須要負載均衡。一句話:凡是請求從一個入口進來,須要分發給後端不一樣的機器時,就須要負載均衡。後端
在上圖中,負載均衡發生在局域網內部。在這裏,經常使用的網關軟件有Nginx/HAProxy/F5/LVS/各類雲上的SLB等。緩存
在上圖以外,還有廣域網負載均衡。這一般發生在域名服務器上,而不是局域網內部。
同1個域名,映射到不一樣的局域網集羣。服務器
經常使用的負載均衡算法:隨機,輪詢(Round Robin),最小資源數,hash。session
在上圖中,當DB負載太高,我須要爲Service機器加緩存時,就遇到一個基本問題:
若是使用local的內存作緩存,則其餘Service機器就沒辦法共用此緩存。
因次,我須要一個可讓全部Service機器共享的緩存,這就是分佈式緩存。
經常使用的分佈式緩存組件:Memcached/Redis/Tair等
在上圖中,當我要存儲客戶端上傳的圖片文件時,就會遇到另外一個基本問題:我不能把圖片存在每一個Tomcat的本地文件系統裏面,這樣的話,其餘機器就沒辦法訪問了。我須要一個讓全部機器能夠共享的文件系統,這就是分佈式文件系統。
經常使用的分佈式文件系統:MogileFS/TFS/HDFS/Amazon S3/OpenStack Swift等
當使用了分佈式文件系統,對外提供圖片url訪問服務時,就會遇到另外一個基本問題:若是每次文件的訪問,都要到分佈式文件系統裏面去取,效率和負載就可能成爲問題。
爲此,就須要引入CDN。
經常使用的CDN廠商,好比ChinCache。固然,如今的各類雲存儲,好比七牛雲,阿里雲,騰訊雲,已經自帶了CDN。
分佈式系統的一個基本問題就是:機器與機器之間如何通訊? 咱們都知道底層原理是TCP/IP,Socket。
但通常不多有人會去裸寫Socket,實現機器之間的通訊。這裏,最經常使用的組件就是RPC。
最簡單的實現RPC的方式就是使用http。固然,業界有不少成熟的開源RPC框架,如Facebook的Thrift, 阿里的Dubbo,點評的Pigeon。。
在RPC內部,通常都本身實現了負載均衡。還有更復雜的,如多版本,服務降級等。
補充一句:雖然底層原理都是Socket,但使用不一樣框架/組件時,一般都有其本身的跨機器通訊方式,好比MySQL JDBC,RPC, 消息中間件等。
在上圖中,DB是單一節點。當訪問量達到必定程度,就會涉及到mysql的分庫分表問題。
分庫/分表以後,就會涉及到join的問題,分佈式事務的問題。
關於分庫分表,業界也早有成熟方案。對上層屏蔽分庫分表,sql的執行,像是在單庫同樣。
還有像MongoDB這種Nosql數據庫,天生是分佈式的。但一樣會面對Mysql分庫分表所要面對的問題。
還有像阿里的OceanBase,有Mysql的強一致性保證,又是分佈式的,還能夠支持分佈式事務。
在上圖中,沒有說起到消息中間件。相對其餘基本問題,這個須要一個更適合的業務場景來談,在之後的章節中,會再詳述。
經常使用的消息中間件,好比老一輩的ActiveMQ/RabbitMQ, 新一點的,阿里的RocketMQ,LinkedIn的Kafka等。
消息中間件的一個典型場景就是:經過最終一致性,解決上面的分佈式事務問題。
在傳統的單機版應用中,咱們常用session。而當單機擴展到多機,單機的session就沒辦法被其餘機器所訪問。
此時就須要使用分佈式session,把session存放在一個全部Tomcat均可以訪問的地方。
關於分佈式session,業界早有成熟方案,在此再也不詳述。
本文羅列了分佈式系統的各類基本問題和業界經常使用的技術,但願創建起分佈式系統的一個宏觀圖譜。
文中的內容有沒有學習資料?
歡迎加裙697579751,一塊兒學習,相互討論。
羣內已經有小夥伴將知識體系整理好(源碼,PPT,學習視頻),歡迎加羣免費領取。
分享給喜歡的Java的,喜歡編程,有夢想成爲架構師的程序員們,但願可以幫助到大家。