分佈式服務(RPC)+分佈式消息隊列(MQ)面試題精選

分佈式系統(distributed system)是創建在網絡之上的軟件系統。正是由於軟件的特性,因此分佈式系統具備高度的內聚性和透明性。所以,網絡和分佈式系統之間的區別更多的在於高層軟件(特別是操做系統),而不是硬件。前端

程序員.jpg

分佈式消息隊列(MQ)

爲何使用 MQ?java

  • 異步處理 - 相比於傳統的串行、並行方式,提升了系統吞吐量。
  • 應用解耦 - 系統間經過消息通訊,不用關心其餘系統的處理。
  • 流量削鋒 - 能夠經過消息隊列長度控制請求量;能夠緩解短期內的高併發請求。
  • 日誌處理 - 解決大量日誌傳輸。
  • 消息通信 - 消息隊列通常都內置了高效的通訊ji制,所以也能夠用在純的消息通信。好比實現點對點消息隊列,或者聊天室等。

如何保證 MQ 的高可用?node

  1. 將全部 Broker 和待分配的 Partition 排序
  2. 將第 i 個 Partition 分配到第(i mod n)個 Broker 上
  3. 將第 i 個 Partition 的第 j 個 Replica 分配到第((i + j) mode n)個 Broker 上

MQ 有哪些常見問題?如何解決這些問題?

MQ 的常見問題有:程序員

  1. 消息的順序問題
  2. 消息的重複問題

消息的順序問題算法

消息有序指的是能夠按照消息的發送順序來消費。數據庫

假如生產者產生了 2 條消息:M一、M2,假定 M1 發送到 S1,M2 發送到 S2,若是要保證 M1 先於 M2 被消費,怎麼作?json

image.png

解決方案:緩存

(1)保證生產者 - MQServer - 消費者是一對一對一的關係安全

image.png

缺陷:服務器

  • 並行度就會成爲消息系統的瓶頸(吞吐量不夠)
  • 更多的異常處理,好比:只要消費端出現問題,就會致使整個處理流程阻塞,咱們不得不花費更多的精力來解決阻塞的問題。
    (2)經過合理的設計或者將問題分解來規避。

  • 不關注亂序的應用實際大量存在
  • 隊列無序並不意味着消息無序
    因此從業務層面來保證消息的順序而不只僅是依賴於消息系統,是一種更合理的方式。

消息的重複問題

形成消息重複的根本緣由是:網絡不可達

因此解決這個問題的辦法就是繞過這個問題。那麼問題就變成了:若是消費端收到兩條同樣的消息,應該怎樣處理?

消費端處理消息的業務邏輯保持冪等性。只要保持冪等性,無論來多少條重複消息,最後處理的結果都同樣。保證每條消息都有惟一編號且保證消息處理成功與去重表的日誌同時出現。利用一張日誌表來記錄已經處理成功的消息的 ID,若是新到的消息 ID 已經在日誌表中,那麼就再也不處理這條消息。

Kafka, ActiveMQ, RabbitMQ, RocketMQ 各有什麼優缺點?
image.png

分佈式服務(RPC)

Dubbo 的實現過程?

image.png

節點角色:
image.png

調用關係:

  1. 務容器負責啓動,加載,運行服務提供者
  2. 服務提供者在啓動時,向註冊中心註冊本身提供的服務。
  3. 服務消費者在啓動時,向註冊中心訂閱本身所需的服務。
  4. 註冊中心返回服務提供者地址列表給消費者,若是有變動,註冊中心將基於長鏈接推送變動數據給消費者。
  5. 服務消費者,從提供者地址列表中,基於軟負載均衡算法,選一臺提供者進行調用,若是調用失敗,再選另外一臺調用。
  6. 服務消費者和提供者,在內存中累計調用次數和調用時間,定時每分鐘發送一次統計數據到監控中心。

Dubbo 負載均衡策略有哪些?

Random

  • 隨機,按權重設置隨機機率。
  • 在一個截面上碰撞的機率高,但調用量越大分佈越均勻,並且按機率使用權重後也比較均勻,有利於動態調整提供者權重。

RoundRobin

  • 輪循,按公約後的權重設置輪循比率。
  • 存在慢的提供者累積請求的問題,好比:第二臺機器很慢,但沒掛,當請求調到第二臺時就卡在那,長此以往,全部請求都卡在調到第二臺上。

LeastActive

  • 最少活躍調用數,相同活躍數的隨機,活躍數指調用先後計數差。
  • 使慢的提供者收到更少請求,由於越慢的提供者的調用先後計數差會越大。

ConsistentHash

  • 一致性 Hash,相同參數的請求老是發到同一提供者。
  • 當某一臺提供者掛時,本來發往該提供者的請求,基於虛擬節點,平攤到其它提供者,不會引發劇烈變更。
  • 缺省只對第一個參數 Hash,若是要修改,請配置 <dubbo:parameter key="hash.arguments" value="0,1" />
  • 缺省用 160 份虛擬節點,若是要修改,請配置 <dubbo:parameter key="hash.nodes" value="320" />

Dubbo 集羣容錯策略 ?
image.png

  • Failover - 失敗自動切換,當出現失敗,重試其它服務器。一般用於讀操做,但重試會帶來更長延遲。可經過 retries="2" 來設置重試次數(不含第一次)。
  • Failfast - 快速失敗,只發起一次調用,失敗當即報錯。一般用於非冪等性的寫操做,好比新增記錄。
  • Failsafe - 失敗安全,出現異常時,直接忽略。一般用於寫入審計日誌等操做。
  • Failback - 失敗自動恢復,後臺記錄失敗請求,定時重發。一般用於消息通知操做。
  • Forking - 並行調用多個服務器,只要一個成功即返回。一般用於實時性要求較高的讀操做,但須要浪費更多服務資源。可經過 forks="2" 來設置最大並行數。
  • Broadcast - 播調用全部提供者,逐個調用,任意一臺報錯則報錯。一般用於通知全部提供者更新緩存或日誌等本地資源信息。

動態代理策略?

Dubbo 做爲 RPC 框架,首先要完成的就是跨系統,跨網絡的服務調用。消費方與提供方遵循統一的接口定義,消費方調用接口時,Dubbo 將其轉換成統一格式的數據結構,經過網絡傳輸,提供方根據規則找到接口實現,經過反射完成調用。也就是說,消費方獲取的是對遠程服務的一個代理(Proxy),而提供方由於要支持不一樣的接口實現,須要一個包裝層(Wrapper)。調用的過程大概是這樣:
image.png

消費方的 Proxy 和提供方的 Wrapper 得以讓 Dubbo 構建出複雜、統一的體系。而這種動態代理與包裝也是經過基於 SPI 的插件方式實現的,它的接口就是ProxyFactory。

@SPI("javassist")
public interface ProxyFactory {
 @Adaptive({Constants.PROXY_KEY})
 <T> T getProxy(Invoker<T> invoker) throws RpcException;
 @Adaptive({Constants.PROXY_KEY})
 <T> Invoker<T> getInvoker(T proxy, Class<T> type, URL url) throws RpcException;
}

ProxyFactory 有兩種實現方式,一種是基於 JDK 的代理實現,一種是基於 javassist 的實現。ProxyFactory 接口上定義了@SPI("javassist"),默認爲 javassist 的實現。

Dubbo 支持哪些序列化協議?Hessian?Hessian 的數據結構?

  1. dubbo 序列化,阿里尚不成熟的 java 序列化實現。
  2. hessian2 序列化:hessian 是一種跨語言的高效二進制的序列化方式,但這裏實際不是原生的 hessian2 序列化,而是阿里修改過的 hessian lite,它是 dubbo RPC 默認啓用的序列化方式。
  3. json 序列化:目前有兩種實現,一種是採用的阿里的 fastjson 庫,另外一種是採用 dubbo 中自已實現的簡單 json 庫,通常狀況下,json 這種文本序列化性能不如二進制序列化。
  4. java 序列化:主要是採用 JDK 自帶的 java 序列化實現,性能很不理想。
  5. Kryo 和 FST:Kryo 和 FST 的性能依然廣泛優於 hessian 和 dubbo 序列化。

Hessian 序列化與 Java 默認的序列化區別?

Hessian 是一個輕量級的 remoting on http 工具,採用的是 Binary RPC 協議,因此它很適合於發送二進制數據,同時又具備防火牆穿透能力。

  1. Hessian 支持跨語言串行
  2. 比 java 序列化具備更好的性能和易用性
  3. 支持的語言比較多
    Protoco Buffer 是什麼?

Protocol Buffer 是 Google 出品的一種輕量 & 高效的結構化數據存儲格式,性能比 Json、XML 真的強!太!多!

Protocol Buffer 的序列化 & 反序列化簡單 & 速度快的緣由是:

  1. 編碼 / 解碼 方式簡單(只須要簡單的數學運算 = 位移等等)
  2. 採用 Protocol Buffer 自身的框架代碼 和 編譯器 共同完成

Protocol Buffer 的數據壓縮效果好(即序列化後的數據量體積小)的緣由是:

  1. 採用了獨特的編碼方式,如 Varint、Zigzag 編碼方式等等
  2. 採用 T - L - V 的數據存儲方式:減小了分隔符的使用 & 數據存儲得緊湊

註冊中心掛了能夠繼續通訊嗎?

能夠。Dubbo 消費者在應用啓動時會從註冊中心拉取已註冊的生產者的地址接口,並緩存在本地。每次調用時,按照本地存儲的地址進行調用。

ZooKeeper 原理是什麼?ZooKeeper 有什麼用?

ZooKeeper 是一個分佈式應用協調系統,已經用到了許多分佈式項目中,用來完成統一命名服務、狀態同步服務、集羣管理、分佈式應用配置項的管理等工做。

image.png

  1. 每一個 Server 在內存中存儲了一份數據;
  2. Zookeeper 啓動時,將從實例中選舉一個 leader(Paxos 協議);
  3. Leader 負責處理數據更新等操做(Zab 協議);
  4. 一個更新操做成功,當且僅當大多數 Server 在內存中成功修改數據。

Netty 有什麼用?NIO/BIO/AIO 有什麼用?有什麼區別?

Netty 是一個「網絡通信框架」。

Netty 進行事件處理的流程。Channel是鏈接的通道,是 ChannelEvent 的產生者,而ChannelPipeline能夠理解爲 ChannelHandler 的集合。

image.png

IO 的方式一般分爲幾種:

  • 同步阻塞的 BIO
  • 同步非阻塞的 NIO
  • 異步非阻塞的 AIO
    在使用同步 I/O 的網絡應用中,若是要同時處理多個客戶端請求,或是在客戶端要同時和多個服務器進行通信,就必須使用多線程來處理。

NIO 基於 Reactor,當 socket 有流可讀或可寫入 socket 時,操做系統會相應的通知引用程序進行處理,應用再將流讀取到緩衝區或寫入操做系統。也就是說,這個時候,已經不是一個鏈接就要對應一個處理線程了,而是有效的請求,對應一個線程,當鏈接沒有數據時,是沒有工做線程來處理的。

與 NIO 不一樣,當進行讀寫操做時,只須直接調用 API 的 read 或 write 方法便可。這兩種方法均爲異步的,對於讀操做而言,當有流可讀取時,操做系統會將可讀的流傳入 read 方法的緩衝區,並通知應用程序;對於寫操做而言,當操做系統將 write 方法傳遞的流寫入完畢時,操做系統主動通知應用程序。便可以理解爲,read/write 方法都是異步的,完成後會主動調用回調函數。

爲何要進行系統拆分?拆分不用 Dubbo 能夠嗎?

系統拆分從資源角度分爲:應用拆分和數據庫拆分。

從採用的前後順序可分爲:水平擴展、垂直拆分、業務拆分、水平拆分。

image.png

是否使用服務依據實際業務場景來決定。

當垂直應用愈來愈多,應用之間交互不可避免,將核心業務抽取出來,做爲獨立的服務,逐漸造成穩定的服務中心,使前端應用能更快速的響應多變的市場需求。此時,用於提升業務複用及整合的分佈式服務框架(RPC)是關鍵。

當服務愈來愈多,容量的評估,小服務資源的浪費等問題逐漸顯現,此時需增長一個調度中心基於訪問壓力實時管理集羣容量,提升集羣利用率。此時,用於提升機器利用率的資源調度和治理中心(SOA)是關鍵。

Dubbo 和 Thrift 有什麼區別?

  • Thrift 是跨語言的 RPC 框架。
  • Dubbo 支持服務治理,而 Thrift 不支持。
相關文章
相關標籤/搜索