如何使用ClickHouse實現時序數據管理和挖掘?

ClickHouse是一個高效的開源聯機分析列式數據庫管理系統,由俄羅斯IT公司Yandex開發的,並於2016年6月宣佈開源。本次文章將詳細解讀京東城市時空數據引擎JUST(https://just.urban-computing.cn/)是如何使用ClickHouse實現時序數據管理和挖掘的。html

1,時序數據簡介

時序數據全稱是時間序列(TimeSeries)數據,是按照時間順序索引的一系列數據點。最多見的是在連續的等時間間隔時間點上獲取的序列,所以,它是一系列離散數據[1]。git

時序數據幾乎無處不在,在目前單向的時間流中,人的脈搏、空氣的溼度、股票的價格等都隨着時間的流逝不斷變化。時序數據是數據的一種,由於它顯著而有價值的特色,成爲咱們特別分析的對象。github

將時序數據能夠建模爲以下部分組成:算法

  • **Metric:**度量的數據集,相似於關係型數據庫中的 table,是固定屬性,通常不隨時間而變化
  • **Timestamp:**時間戳,表徵採集到數據的時間點
  • **Tags:**維度列,用於描述Metric,表明數據的歸屬、屬性,代表是哪一個設備/模塊產生的,通常不隨着時間變化
  • **Field/Value:**指標列,表明數據的測量值,能夠是單值也能夠是多值

一個具體的多值模型時序數據案例如表1所示:docker

表1 時序數據案例數據庫

2,時序數據管理概述

1. 時序數據管理的流程

一切數據的本質都是爲價值服務的,獲取價值的這個過程就是數據管理與分析。從技術上來講,任何數據從產生到滅亡都會經歷如圖1所示的過程。緩存

圖1 數據生命週期多線程

時序數據也不例外,只是每一個部分的處理不一樣。併發

(1)數據採集。同一個場景下時序數據產生的頻率通常恆定,但在不一樣場景下采集數據的頻率是變化的,每秒一千條和每秒一千萬條數據使用的技術是徹底不一樣的。因此,數據採集要考慮的主要是頻率和併發。運維

(2)數據存儲。數據存儲是爲了查詢和分析服務的。以什麼格式存儲、建什麼索引、存儲數據量大小、存儲時長是時序數據存儲要考慮的,通常時序數據寫多讀少,數據具備時效性,因此存儲時能夠考慮冷熱存儲分離。

(3)數據查詢和分析。時序數據的查詢也具備顯著特色,通常會按照時間範圍讀取,最近的數據讀取頻率高,而且按照不一樣的時間粒度作聚合查詢,好比統計最近一週天天的數據量。

分析是依賴於查詢的,時序數據的分析一般是多維的,好比網頁點擊流量、從哪一個網站、來自哪一個IP、點擊頻率等維度衆多,取決於具體場景。而時序數據也很是適合數據挖掘,利用歷史預測將來。

(4)數據刪除。這裏的刪除並非針對單條數據的,而是對特定時間範圍內的批量數據進行過時處理。由於時序數據具備時效性,歷史數據一般再也不具備價值,無論是定時刪除仍是手動刪除,都表明着其短暫的生命週期的結束。

2. 時序數據管理系統目標

根據時序數據的特色和場景,咱們須要一個能知足如下目標的時序數據管理平臺:

  • 高吞吐寫入:千萬、上億數據的秒級實時寫入 & 持續高併發寫入;
  • 無更新操做:數據大多表徵設備狀態,寫入後無需更新;
  • 海量數據存儲:從TB到PB級;
  • 高效實時的查詢:按不一樣維度對指標進行統計分析,存在明顯的冷熱數據,通常只會頻繁查詢近期數據;
  • 高可用;
  • 可擴展性;
  • 易於使用;
  • 易於維護;

3. 技術選型

說到數據庫,你們第一個想到的確定是MySQL、Oracle等傳統的已經存在不少年的關係型數據庫。固然關係模型依然有效且實用。對於小數據量(幾百萬到幾千萬),MySQL是能夠搞定的,再大一些就須要分庫分表解決了。對時序數據通常按照時間分表,可是這對外部額外設計和運維的工做提出了高要求。顯然,這不能知足大數據場景,因此幾乎沒有人選擇這種方案。

縱觀db-engine上排名前十的時序數據庫[2],排除商用的,剩下開源的選擇並很少。接下來介紹幾款比較流行的時序數據庫。

圖2 db-engine時序數據庫排名

**(1)OpenTSDB。**OpenTSDB開源快10年了,屬於早期的解決方案。由於其基於Hadoop和HBase開發的索引,因此具備海量數據的存儲能力,也號稱每秒百萬級別的寫入速度。但一樣由於其依賴的Hadoop生態過重, 運維成本很高,不夠簡潔與輕量;另外一個缺點就是它基於HBase的key-value存儲方式,對於聚合查詢並不友好高效,HBase存在的問題也會體現出來。

圖3 OpenTSDB用戶界面

**(2)InfluxDB。**InfluxDB能夠說是時序行業的典範了,其已經發展成爲一個平臺,包括了時序數據應有的一切:從數據存儲到界面展現。然而,InfluxDB雖然開源了其核心代碼,但重要的集羣功能只有企業版才提供[3], 而企業版並非免費的。不少大公司要麼直接使用,要麼本身開發集羣功能。

圖4 InfluxDB各版本支持的功能

**(3)TDengine。**TDengine是濤思團隊開發的一個高效存儲、查詢和分析時序大數據的平臺,其創始人陶建輝年近5旬,依然開發出了這個數據庫。

TDengine的定位是物聯網、車聯網、運維監測等時序數據,其設計也是專門針對每一個設備。每一個採集點一張表,好比空氣監測站有1000萬個,那麼就建1000萬個表,爲了對多個採集點聚合查詢,又提出了超表的概念,將同類型的採集點表經過標籤區分,結構同樣。這種設計確實很是有針對性,雖然限制了範圍,但極大提升了效率,根據其官方的測試報告[4], 其聚合查詢速度是InfluxDB的上百倍,CPU、內存和硬盤消耗卻更少。

圖5 濤思團隊給出的不一樣時序數據庫性能對比

TDengine無疑是時序數據庫的一朵奇葩,加上在不久前開源了其集羣功能[5],受到了更多用戶青睞。當咱們選型時其尚未開源集羣功能,後續也會歸入觀察之中。**(4)ClickHouse。**ClickHouse(以後簡稱CK)是一個開源的大數據分析數據庫,也是一個完整的DBMS。CK無疑是OLAP數據庫的一匹黑馬,開源不到4

年,GitHub上的star數已經超過12k(InfluxDB也不過19k+),而它們的fork數卻相差不大。

CK是俄羅斯的搜索引擎公司yandex開源的,最初是爲了分析網頁點擊的流量,因此叫Click,迭代速度很快,每月一版,開發者500+,不少都是開源共享者,社區很是活躍。

CK是一個通用的分析數據庫,並非爲時序數據設計的,但只要使用得當,依然能發揮出其強大的性能。

3,CK原理介紹

要利用CK的優點,首先得知道它有哪些優點,而後理解其核心原理。根據咱們的測試結果,對於27個字段的表,單個實例每秒寫入速度接近200MB,超過400萬條數據/s。由於數據是隨機生成的,對壓縮並不友好。

而對於查詢,在可以利用索引的狀況下,不一樣量級下(百萬、千萬、億級)都能在毫秒級返回。對於極限狀況:對多個沒有索引的字段作聚合查詢,也就是全表掃描時,也能達到400萬條/s的聚合速度。

1. CK爲何快?

能夠歸結爲選擇和細節,選擇決定方向,細節決定成敗。

CK選擇最優的算法,好比列式壓縮的LZ4[6];選擇着眼硬件,充分利用CPU和分級緩存;針對不一樣場景不一樣處理,好比SIMD應用於文本和數據過濾;CK的持續迭代很是快,不只能夠迅速修復bug,也能很快歸入新的優秀算法。

2. CK基礎

(1)CK是一個純列式存儲的數據庫,一個列就是硬盤上的一個或多個文件(多個分區有多個文件),關於列式存儲這裏就不展開了,總之列存對於分析來說好處更大,由於每一個列單獨存儲,因此每一列數據能夠壓縮,不只節省了硬盤,還能夠下降磁盤IO。

(2)CK是多核並行處理的,爲了充分利用CPU資源,多線程和多核必不可少,同時向量化執行也會大幅提升速度。

(3)提供SQL查詢接口,CK的客戶端鏈接方式分爲HTTP和TCP,TCP更加底層和高效,HTTP更容易使用和擴展,通常來講HTTP足矣,社區已經有不少各類語言的鏈接客戶端。

(4)CK不支持事務,大數據場景下對事務的要求沒這麼高。

(5)不建議按行更新和刪除,CK的刪除操做也會轉化爲增長操做,粒度過低嚴重影響效率。

3. CK集羣

生產環境中一般是使用集羣部署,CK的集羣與Hadoop等集羣稍微有些不同。如圖6所示,CK集羣共包含如下幾個關鍵概念。

圖6 CK集羣示例

(1)CK實例。能夠一臺主機上起多個CK實例,端口不一樣便可,也能夠一臺主機一個CK實例。

(2)分片。數據的水平劃分,例如隨機劃分時,圖5中每一個分片各有大約一半數據。

(3)副本。數據的冗餘備份,同時也可做爲查詢節點。多個副本同時提供數據查詢服務,可以加快數據的查詢效率,提升併發度。圖5中CK實例1和示例3存儲了相同數據。

(4)多主集羣模式。CK的每一個實例均可以叫作副本,每一個實體均可以提供查詢,不區分主從,只是在寫入數據時會在每一個分片裏臨時選一個主副本,來提供數據同步服務,具體見下文中的寫入過程。

4. CK分佈式引擎

要實現分片的功能,須要分佈式引擎。在集羣狀況下,CK裏的表分爲本地表和分佈式表,下面的兩條語句可以建立一個分佈式表。注意,分佈式表是一個邏輯表,映射到多個本地表。

create table t_local on cluster shard2_replica2_cluster(t Datetime, id UInt64)  
ENGINE=ReplicatedMergeTree('/clickhouse/tables/{shard}/t_local','{replica}')
PARTITION BY toYYYYMM(t)
ORDER BY id
create table t on cluster shard2_replica2_cluster  (t Datetime, id UInt64) 
ENGINE=Distributed(shard2_replica2_cluster,default,t_local,id)

這裏的t_local就是本地表,t就是分佈式表。ReplicatedMergeTree是實現副本同步的引擎,參數能夠先忽略。Distributed引擎就是分佈式引擎,參數分別爲:集羣名,數據庫名,本地表名,分片鍵(能夠指定爲rand()隨機數)。

分佈式引擎在寫入和查詢過程當中都充當着重要的角色,具體過程見下面。

5. CK寫入過程

根據使用的表引擎不一樣,寫入過程是不一樣的,上文的建表方式是比較常規的作法,按照上面的建表語句,須要同時開啓內部複製項。

<shard2_replica2_cluster>
       <shard>
               <weight>1</weight>
               <internal_replication>true</internal_replication>
               <replica>
                        …
               </replica>
               <replica>
                        …
                </replica>
       </shard>

寫入2條數據:insert into t values(now(), 1), (now(),2),如圖7所示,寫入過程分爲2步:分佈式寫入和副本同步。

圖7 CK寫入過程

(1)分佈式寫入

1)客戶端會選擇集羣裏一個副本創建鏈接,這裏是實例1。寫入的全部數據先在實例1完成寫入,根據分片規則,屬於01分片的寫入實例1本地,屬於02分片的先寫入一個臨時目錄,而後向實例2(shard02的主副本)創建鏈接,發送數據到實例2。

2)實例2接收到數據,寫入本地分區。

3)實例1返回寫入成功給客戶端(每一個分片寫入一個副本便可返回,能夠配置)。

(2)副本同步

同步的過程是須要用到ZK的,上面建表語句的ReplicatedMergeTree第一個參數就是ZK上的路徑。建立表的時候會有一個副本選舉過程,通常先起的會成爲主副本,副本的節點信息會註冊到ZK,ZK的做用只是用來維護副本和任務元數據以及分佈式通訊,並不傳輸數據。副本一旦註冊成功,就開始監聽/log下的日誌了,當副本上線,執行插入時會通過如下過程:

1)實例1在寫入本地分區數據後,會發送操做日誌到ZK的/log下,帶上分區名稱和源主機(實例1的主機)。

2)01分區的其餘副本,這裏就實例3,監聽到日誌的變化,拉取日誌,建立任務,放入ZK上的執行隊列/queue(這裏都是異步進行),而後再根據隊列執行任務。

3)執行任務的過程爲:選擇一個副本(數據量最全且隊列任務最少的副本),創建到該副本(實例1)的鏈接,拉取數據。

注意,使用副本引擎卻不開啓內部複製是不明智的作法,由於數據會重複寫,雖然數據校驗能夠保證數據不重複,但增長了無畏的開銷。

6. CK查詢過程

查詢的是分佈式表,但要定位到實際的本地表,也就是副本的選擇,這裏有幾種選擇算法,默認採用隨機選擇。響應客戶端查詢請求的只會有一個副本,可是執行過程可能涉及多個副本。好比:select count(*) from t。由於數據是分佈在2個分片的,只查一個副本不能獲得所有結果。

圖8 CK多實例查詢過程

7. CK中重要的索引引擎

CK核心的引擎就是MergeTree,在此之上產生了不少附加引擎,下面介紹幾種比較經常使用的。

(1)ReplacingMergeTree。爲了解決MergeTree主鍵能夠重複的特色,可使用ReplacingMergeTree,但也只是必定程度上不重複:僅僅在一個分區內不重複。使用方式參考:https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replacingmergetree/

(2)SummingMergeTree。對於肯定的group by + sum查詢,若比較耗時,那麼能夠建SummingMergeTree, 按照order by的字段進行聚合或自定義聚合字段,其他字段求和。

(3)AggregatingMergeTree。聚合顯然是分析查詢的重點,通常使用聚合MergeTree都會結合物化視圖,在插入數據時自動同步到物化視圖裏,這樣直接查詢物化視圖中聚合的結果便可。

(4)ReplicatedXXXMergeTree。在全部引擎前加一個Replicated前綴,將引擎升級爲支持副本功能。

(5)物化視圖。物化視圖就是將視圖SQL查詢的結果存在一張表裏,CK裏特殊的一點是:只有insert的數據才能進入觸發視圖查詢,進入視圖表,分佈式狀況下同步過去的數據是不會被觸發的,爲了在分佈式下使用物化視圖,能夠將物化視圖所依賴的表指定爲分佈式表。

4,CK與時序的結合

在瞭解了CK的基本原理後,咱們看看其在時序數據方面的處理能力。

(1)時間:時間是必不可少的,按照時間分區可以大幅下降數據掃描範圍;

(2)過濾:對條件的過濾通常基於某些列,對於列式存儲來講優點明顯;

(3)降採樣:對於時序來講很是重要的功能,能夠經過聚合實現,CK自帶時間各個粒度的時間轉換函數以及強大的聚合能力,能夠知足要求;

(4)分析挖掘:能夠開發擴展的函數來支持。

另外CK做爲一個大數據系統,也知足如下基礎要求:

(1)高吞吐寫入;

(2)海量數據存儲:冷熱備份,TTL;

(3)高效實時的查詢;

(4)高可用;

(5)可擴展性:能夠實現自定義開發;

(6)易於使用:提供了JDBC和HTTP接口;

(7)易於維護:數據遷移方便,恢復容易,後續可能會將依賴的ZK去掉,內置分佈式功能。

所以,CK能夠很方便的實現一個高性能、高可用的時序數據管理和分析系統。下面是關鍵點的詳細介紹。

1. 時序索引與分區

時序查詢場景會有不少聚合查詢,對於特定場景,若是使用的很是頻繁且數據量很是大,咱們能夠採用物化視圖進行預聚合,而後查詢物化視圖。可是,對於一個通用的分析平臺,查詢條件能夠隨意改變的狀況下,使用物化視圖的開銷就太大了,所以咱們目前並無採用物化視圖的方式,而是採用原始的表。物化視圖的方案後續將會進一步驗證。

下面給出的是JUST建時序表的語法格式:第一個括號爲TAG字段,第二個括號爲VALUE字段(必須是數值型),大括號是對底層存儲的特殊配置,這裏主要是CK的索引和參數。除了用戶指定的字段外,還有一個隱含的time字段,專爲時序保留。

create table my_ts_table as ts (
    tag1 string,
    tag2 String [:primarykey][:comment=’描述’]
)
(
    value1 double,
    value2 double
)

在JUST底層,對應了CK的2張表(一張本地表,一張分佈式表),默認會根據time分區和排序,以下面的一個例子:

create table my_ts_table as ts (
    tag1 string,
    tag2 String [:primarykey][:comment=’描述’]
)
(
    value1 double,
    value2 double
)

實際對應的CK建表語句爲:

CREATE TABLE just.username_dbname_airquality_local
(
    `id` Int32,
    `oid`Int32,
    `name`String,
    `city`String,
    `time`DateTime,
    `PM10`Float64,
    `PM25`Float64
)
ENGINE =ReplicatedMergeTree('/clickhouse/tables/{shard}/24518511-2939-489b-94a8-0567384d927d','{replica}')
ORDER BY (time)
SETTINGS index_granularity = 8192
PARTITION BY toYYYYMM(time)
​
CREATE TABLE just.wangpeng417_test_airquality
(
    `id` Int32,
    `oid`Int32,
    `name`String,
    `city`String,
    `time`DateTime,
    `PM10`Float64,
    `PM25`Float64
)
ENGINE = Distributed('just_default', 'just', ' username_dbname_airquality_local',rand())

這樣保證在使用時間範圍查詢時能夠利用到索引,假如還有其餘按照TAG的查詢條件,還能夠自定義索引和排序字段[LL1] (CK規定索引字段必定是排序字段的前綴)。

在不一樣場景下,仍是須要根據數據量和數據特色來選擇索引分區和索引粒度。根據實驗測試,假如在咱們環境裏CK每秒能夠掃描1GB數據量,再乘以1-10倍的壓縮比,那麼一個分區的數據量應該大於千萬到億級別能夠保證較優的速度,CK自己是多線程查詢的,能夠保證同時對每一個分區查詢的隔離性。可是根據查詢的場景,好比最多查到一個月,但大部分狀況都是查一週,那麼分區精確到周可能更好,這是個綜合權衡的過程。

2. 部署與高可用

在JUST中,高可擴展性和高可用性是咱們的追求。爲實現高可擴展性,咱們對數據進行水平分片;爲了實現高可用性,咱們對每一個分片存儲至少兩個副本。

關於集羣部署,最小化的狀況是2臺機器,這會產生2種狀況1)交叉副本;2)一主一備;如圖9所示:

圖9 兩種副本的情形

這兩種方案對查詢和寫入影響的實驗結果如圖10所示:

圖10 兩種副本的寫入和查詢結果對比

實驗結果代表:寫入速度(橫座標爲寫入示例數,縱座標爲速度MB/s)在達到極限時是差很少的,而查詢性能(橫座標爲SQL編號,SQL語句見附錄1,縱座標爲耗時,單位爲秒)對於簡單查詢差異不大,可是對於佔用大量資源的複雜查詢,一主一備更加高效。由於CK的強悍性能是創建在充分利用CPU的基礎上,在咱們的測試中,裸機狀況下CPU達到90%以上很是頻繁,若是有單獨的機器部署CK,那麼無可厚非可以充分利用機器資源。但在咱們的環境中,與其餘大數據平臺共有機器,就須要避免CK佔用過多資源,從而影響其餘服務,因而咱們選擇docker部署。docker容器部署也有開源的基於k8s的實現:clickhouse-operator,對於小型環境,能夠選擇手動配置,經過簡單的腳本便可實現自動化部署。

基於以上測試結論,爲了保證服務高可用,CK集羣和數據冗餘是必不可少的,咱們的方案是保證至少2個副本的狀況下,分片數儘可能多,充分利用機器,且每一個機器有且僅有一個CK實例。因而就有了如下分片數與副本數的公式:

其中_f_(n)表明當有_n_臺機器時,部署的分佈狀況,n>=2。f(2) = (1, 2)表示2臺機器採用1個分片2個副本部署的策略,f(3)=(1, 3)表示3臺機器時1個分片3個副本部署策略,f(4)=(2, 2)表示4臺機器使用2個分片,每一個分片2個副本,以此類推。

3. 動態擴容

隨着數據量增長,須要擴展節點時,能夠在不停機的狀況下動態擴容,主要利用的是分片之間的權重關係。

這裏擴容分爲兩種狀況:

(1)增長副本:只須要修改配置文件,增長副本實例,數據會自動同步,由於CK的多主特性,副本也能夠看成查詢節點,因此能夠分擔查詢壓力;

(2)增長分片:增長分片要麻煩點,須要根據當前數據量、增長數據量計算出權重,而後在數據量達到均衡時將權重修改回去

假如開始時咱們只有1個分片,已經有100條數據了。

<test_extend>
       <shard>
              <weight>1</weight>
              <internal_replication>true</internal_replication>
              <replica>
                     <host>10.220.48.106</host>
                     <port>9000</port>
              </replica>
              <replica>
                     <host>10.220.48.105</host>
                     <port>9000</port>
              </replica>
       </shard>
</test_extend>

如今要再加入一個分片,那麼權重的計算過程以下(爲了簡化忽略這個期間插入的數據):

假如咱們打算再插n條數據時,集羣數據可以均衡,那麼每一個shard有(n+100)/2 條,如今shard01有100條,設權重爲 w一、w2,那知足公式:n * (w2/(w1+w2)) = (n+100)/2 ,其中n>100, 因此,假如 w1=1,n=200,那麼 w2=3。

因此,將配置修改以下:

<test_extend>
       <shard>
              <weight>1</weight>
              <internal_replication>true</internal_replication>
              <replica>
                     <host>10.220.48.106</host>
                     <port>9000</port>
              </replica>
              <replica>
                     <host>10.220.48.105</host>
                     <port>9000</port>
              </replica>
       </shard>
       <shard>
              <weight>3</weight>
              <internal_replication>true</internal_replication>
              <replica>
                     <host>10.220.48.103</host>
                     <port>9000</port>
              </replica>
       </shard>
</test_extend>

等到數據同步均勻後再改回1:1。

4. 系統介紹與不足

JUST時序分析底層使用了CK做爲存儲查詢引擎,並開發了可複用的可視化分析界面,歡迎訪問https://just.urban-computing.cn/進行體驗。

圖11 JUST時序分析模塊示意圖

用戶可使用統一的查詢界面創建時序表,而後導入數據,切換到時序分析模塊進行可視化查詢。

圖12 JUST創建時序表示意圖

目前提供的查詢功能主要有:按時間查詢、按TAG過濾,在數據量不少的狀況下,能夠按照大一些的時間粒度進行降採樣,查看整個數據的趨勢,同時提供了線性、拉格朗日等缺失值填補功能。

分析挖掘部分主要是按找特定值和百分比過濾,以及一些簡單的函數轉換。

目前時序模塊的功能還比較簡陋,對於時序數據的SQL查詢支持還不夠完備。將來還有集成如下功能:

(1)接入實時數據;

(2)針對複雜查詢,面板功能能夠採用聚合引擎預先聚合;

(3)更完善的分析和挖掘功能;

(4)對數據的容錯與校驗處理;

(5)與JUST一致的SQL查詢支持。

參考連接:

[1]https://en.wikipedia.org/wiki/Time_series

[2]https://db-engines.com/en/ranking/time+series+dbms

[3]https://www.influxdata.com/blog/influxdb-clustering/

[4]https://www.taosdata.com/downloads/TDengine_Testing_Report_cn.pdf

[5]https://www.taosdata.com/blog/2020/08/03/1703.html

[6]lz4.LZ4[EB/OL].https://lz4.github.io/lz4/,2014-08-10.

[7]https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/mergetree/

推薦閱讀:

歡迎點擊京東智聯雲,瞭解開發者社區

更多精彩技術實踐與獨家乾貨解析

歡迎關注【京東智聯雲開發者】公衆號

相關文章
相關標籤/搜索