開源NewSQL – CockroachDB在百度內部的應用與實踐

時間 2019-11-24

標籤開源 newsql cockroachdb 百度內部應用實踐欄目 SQL 简体版

原文原文鏈接

內容來源：2017 年 11 月 18 日，百度數據庫架構師嚴龍在「第七屆數據技術嘉年華」進行《百度NewSQL-CockroachDB》演講分享。IT 大咖說（微信id：itdakashuo）做爲獨家視頻合做方，經主辦方、演講者以及微信公衆號——CockroachDB（微信id：CockroachDB）審閱受權發佈。
算法

閱讀字數：3621 | 10分鐘閱讀數據庫

嘉賓演講視頻及PPT回顧： suo.im/5bnORh

摘要

本次交流主要包括開源 NewSQL 數據庫 Cockroach DB 關鍵技術分析以及 Cockroach DB 在百度內部的應用和實踐。服務器

NewSQL起源

對於MySQL、Oracle、PostgreSQL這樣的單機數據庫，隨着數據量的增加在計算容量和存儲容量上都會出現問題。因而後續又推出了基於中間件或者NoSQL的方案，可是都並不是完美，好比中間件在分佈式事務方面以及NoSQL在SQL接口和對事務的支持方面作了必定退讓。微信

2011年分析師Matthew Aslett首次提出了NewSQL的概念，指望將NoSQL和傳統的數據庫的優點融合，將現有數據庫存在的缺陷在下一代中解決掉。而Google首先將這一律念工程化，也就是Spanner。隨後開源社區也陸續跟進。架構

Cockroach DB簡介

Cockroach DB於2014年託管在GitHub，遵循Apache License，基於Golang實現。 Star數量12000+，Contributor數量150+。當前2.0.1版本。母公司是Cockroach Labs，公司的三位創始人所有來自Google，有Big Table，GFS，Colossus，Gmail項目背景，已得到來自Benchmark，Google Venture等共計5325萬的融資。總部位於紐約，目前有50+員工。併發

Cockroach DB架構

Cockroach DB採用相似Spanner的分層架構，在分佈式KV上提供了SQL引擎，分佈式KV之下引入了自身獨有三個概念Node、Store、Range。oracle

Node & Store

Node是Cockroach DB的進程實例，一臺物理服務器啓動一個Node便可，一個物理存儲介質（例如一塊硬盤）通常配置一個Store，一個Node中有多個Store。負載均衡

Range

Range是Cockroach DB存儲管理的最小單位，一個Range是一段鍵值區間的數據分片。一個Store中有多個Range，每一個Range分片默認爲64M，默認存在3個副本，分佈在不一樣的Node上。框架

ockroach DB特性

標準SQL接口

Cockroach DB使用PostgreSQL協議，支持標準SQL接口，兼容關係型數據庫SQL生態。支持事務、二級索引、Join等NoSQL欠缺的特性，同時還供了類MPP的分佈式查詢框架。它還支持Schema在線變動，以方便應對業務的變化。運維

SQL & KV

因爲Cockroach DB底層是分佈式KV，那麼必然就要將全部的SQL操做轉換爲KV操做。因而它就在底層抽象出了Get、Put、ConditionalPut、Scan、Del這五個KV做原語。

SQL / KV模型映射

解決完KV操做的問題後，還有另外一個問題有待解決，即Schema到KV模型的映射。Cockroach DB的每一個表都須要有一個Primary Key，每一列（不是每行）構成一個Key / Value存儲單元，Key由<db>、<table>、<index>、<pkey>、<columnld>這幾部分共同構成。

惟一索引

在KV存儲中必須保證key全局惟一，這樣就能方便前綴匹配。Cockroach DB爲了實現惟一索引，首先會將<db>、<table>、<index>、<key>編碼到Key中，當作索引掃描時就要進行前綴匹配，而後就能將相應的Value取出來。這裏因爲<key>是全局惟一的因此索引的惟一性也得以保證。

非惟一索引

對於非惟一索引Cockroach DB處理就比較巧妙了，它將行的<pkey>也編譯到了Key中，這樣對索引作前綴匹配時，只要相關的索引項匹配到index前面，就能將相應的<pKey>取出來，而後經過<pkey>反向索引到數據。

Column Family

在行存系統中數據的更新只須要進行一次IO操做，可是因爲Cockroach DB是列存的，數據在更新時要進行屢次IO。爲此Cockroach DB提出了column family的概念，將須要被頻繁訪問的列封裝到一塊兒，甚至能夠經過column family的方式退化到行存的方式，這樣就能有效減小IO操做。

擴展能力強、高併發

爲了實現線性擴展的能力，Cockroach DB採用了去中心化的架構，任意節點故障對於集羣無影響。它經過Gossip協議實現節點狀態管理，理論上單集羣支持10K節點規模。兩級路由元數據的方式使得單集羣最大支撐4EB用戶數據存儲。整個架構中子模型都採用分佈式設計，無單點瓶頸，支持多節點併發寫入。

彈性伸縮

面對單機數據庫擴展性的問題，通常採用哈希的數據分佈方式。可是除非是使用的是一致性哈希，不然普通的哈希分佈都須要有數據遷移和停服的過程。而Cockroach DB選擇的是Range分佈，在進行擴容時無需停服，直接能夠在線擴展，同時由於每一個數據都被劃分爲64M的小分片，因此在新節點加入時能作到業務無感知的自動負載均衡多副本強一致性。

MySQL數據同步採用的主從複製架構是弱一致性的，而Cockroach DB的副本數據同步是基於Raft協議，具備強一致性，不會出現當某個節點掛了同時redolog尚未徹底複製到從庫上致使數據丟失的問題。