本文由 「AI前線」原創,原文連接: Netflix實戰指南:規模化時序數據存儲
做者|Ketan Duvedi 等
譯者|蓋磊
編輯|Natalie
AI 前線導讀:」Netflix 使用會員的視頻觀看記錄實時準確地記錄用戶的觀看狀況,併爲會員提供個性化推薦。Netflix 的發展,對視頻觀看記錄時序數據存儲的規模化提出了挑戰,原有的單表存儲架構沒法適應會員的大規模增加。本文介紹了 Netflix 團隊在規模化時序存儲中的作法,包括數據存儲方式的改進,以及在存儲架構中添加緩存層。存儲架構在 Netflix 的實際應用驗證了該時序數據存儲的有效性。」數據庫
引言緩存
因特網互聯設備的發展,提供了大量易於訪問的時序數據。愈來愈多的公司有興趣去挖掘這類數據,意圖從中獲取一些有意義的洞悉,並據此作出決策。技術的最新進展提升了時序數據的收集、存儲和分析效率,激發了人們對如何處理此類數據的考量。然而,大多數現有時序數據體系結構的處理能力,可能沒法跟上時序數據的爆發性增加。架構
做爲一家根植於數據的公司,Netflix 已習慣於面對這樣的挑戰,多年來一直在推動應對此類增加的解決方案。該系列博客文章分爲兩部分發表,咱們將分享 Netflix 在改進時序數據存儲架構上的作法,如何很好地應對數據規模的成倍增加。性能
時序數據:會員視頻觀看記錄大數據
天天,Netflix 的所有會員會觀看合計超過 1.4 億小時的視頻內容。觀看一個視頻時,每位會員會生成多個數據點,存儲爲視頻觀看記錄。Netflix 會分析這些視頻觀看數據,實時準確地記錄觀看書籤,併爲會員提供個性化推薦。具體實現可參考以下帖子:優化
視頻觀看的歷史數據將會在如下三個維度上取得增加:設計
Netflix 通過近十年的發展,全球用戶數已經超過一億,視頻觀看歷史數據也在大規模增加。這篇博客帖子將聚焦於其中的一個重大挑戰,就是咱們的團隊是如何解決視頻觀看歷史數據的規模化存儲的。cdn
基本架構的初始設計視頻
最初,Netflix 的雲原生存儲架構使用了 Cassandra 存儲觀看歷史數據。團隊是出於以下方面的考慮:對象
在最初的架構中,使用 Cassandra 存儲全部會員的觀看歷史記錄。其中,每位會員的觀看記錄存儲爲一行,使用 CustomerId 標識。這種水平分區設計支持數據存儲隨會員數量的增加而有效擴展,並支持簡單並高效地讀取會員的完整觀看歷史數據。這一讀取操做是歷史數據存儲上最頻繁發生的操做。然而,隨着會員數量的持續增加,尤爲是每位會員觀看的視頻流愈來愈多,存儲的數據行數和總體數據量也日益膨脹。隨着時間的推移,這將致使存儲和操做的成本增大。並且對於觀看了大量視頻的會員而言,性能會嚴重下降。
下圖展現了最初使用的數據模型中的讀操做和寫操做流。
圖 1:單表數據模型
寫操做流
當一位會員開始播放視頻時,一條觀看記錄會以一個新列的方式插入。當會員暫停或中止觀看視頻流時,觀看記錄會作更新。在 Cassandra 中,對單一列值的寫操做是快速和高效的。
讀操做流
爲檢索一位會員的全部觀看記錄,須要讀取整行記錄。若是每位會員的觀看記錄數量不大,這時讀操做是高效的。若是一位會員觀看了大量的視頻,那麼他的觀看記錄數量將會增長,即記錄的列數增長。讀取一個具備大量列的數據行,會對 Cassandra 形成了額外壓力,進而對讀操做延遲產生負面影響。
要讀取一段時間內的會員數據,須要作一次時間範圍查詢。這一樣會致使上面介紹的性能不一致問題。由於查詢性能依賴於給定時間範圍內的觀看記錄數量。
若是要查看的歷史數據規模很大,須要作分頁才能進行整行讀操做。分頁對 Cassandra 更好,由於查詢不須要等待全部數據都就緒,就能返回給用戶。分頁也避免了客戶超時問題。可是,隨着觀看記錄的增加,分頁增長了讀取整行的總體延遲。
延遲的緣由
下面介紹一些 Cassandra 的內部機制,進而理解爲何咱們最初的簡單設計會產生性能降低。隨着數據的增加,SSTable 的數量也隨之增長。由於只有最近的數據是維護在內存中的,所以在不少狀況下,檢索觀看歷史記錄時須要同時讀取內存表和 SSTable。這對於讀取延遲具備負面影響。一樣,隨着數據的增加,合併(Compaction)操做將佔用更多的 IO 和時間。此外,隨着一行記錄愈來愈寬,讀修復(Read repair)和全列修復(Full column repair)也會變慢。
緩存層
Cassandra 能夠很好地對觀看數據執行寫操做,可是須要改進讀操做上的延遲。爲優化讀操做延遲,咱們考慮以增長寫路徑上的工做爲代價,在 Cassandra 存儲前增長了一個內存中的分片緩存層(即 EVCache)。緩存實現爲一種基本的鍵 - 值存儲,鍵是 CustomerId,值是觀看歷史數據的二進制壓縮表示。每次 Cassandra 的寫操做,將額外生成一次緩存查找操做。一旦緩存命中,直接給出緩存中的已有值。對於觀看歷史記錄的讀操做,首先使用緩存提供的服務。一旦緩存沒有命中,再從 Cassandra 讀取條目,壓縮後插入到緩存中。
在添加了緩存層後,多年來 Cassandra 單表存儲方法一直工做很好。在 Cassandra 集羣上, 基於 CustomerId 的分區提供了很好的擴展。到 2012 年,查看歷史記錄的 Cassandra 集羣成爲了 Netflix 的最大專用 Cassandra 集羣之一。爲進一步實現存儲的規模化,團隊須要實現集羣的規模翻番。這意味着,團隊須要冒險進入 Netflix 在使用 Cassandra 上還沒有涉足的領域。同時,Netflix 業務也在持續快速增加,其中包括國際會員的增加,以及企業即將推出的自制節目業務。
從新設計:實時存儲和壓縮存儲
很明顯,爲適應將來五年中企業的發展,團隊須要嘗試多種不一樣的方法去實現存儲的規模化。團隊分析了數據的特徵和使用模式,從新定義了觀看歷史存儲。團隊給出了兩個主要目標:
團隊將每位會員的觀看歷史數據劃分爲兩個數據集:
爲提供更好的性能,LiveVH 和 CompressedVH 存儲在不一樣的數據庫表中,並作了不一樣的優化。考慮到 LiveVH 更新頻繁,而且涉及的觀看記錄數量不大,所以可對 LiveVH 作頻繁的 Compaction 操做。而且爲了下降 SSTable 數量和數據規模,能夠設置很小的 gc_grace_seconds。爲改進數據的一致性,也能夠頻繁執行讀修復和全列族修復(full column family repair)。而對於 CompressedVH,因爲該部分數據不多作更新操做,所以爲了下降 SSTable 的數量,偶爾手工作徹底 Compaction 便可。在偶爾執行的更新操做中,會檢查數據一致性,所以也沒必要再作讀修復以及全列族修復。
寫操做流
對於新的觀看記錄,使用同上的方法寫入到 LiveVH。
讀操做流
爲有效地利用新設計的優勢,團隊更新了觀看歷史 API,提供了讀取近期數據和讀取所有數據的選項。
考慮到數據是壓縮的,而且 CompressedVH 具備更少的列,所以讀取操做涉及更少的數據,這顯著地加速了讀操做。
CompressedVH 更新流
在從 LiveVH 讀取觀看歷史記錄時,若是記錄數量超過了一個預設的閾值,那麼最近觀看記錄將由後臺任務打包(roll up)、壓縮並存儲在 CompressedVH 中。打包數據存儲在一個行標識爲 CustomerId 的新行中。新打包的數據在寫入後會給出一個版本,用於讀操做檢查數據的一致性。只有驗證了新版本的一致性後,纔會刪除舊版本的打包數據。出於簡化的考慮,在打包中沒有考慮加鎖,由 Cassandra 負責處理很是罕見的重複寫問題(即以最後寫入的數據爲準)。
圖 2:實時數據和壓縮數據的操做模型
如圖 2 所示,CompressedVH 的打包行中還存儲了元數據信息,其中包括最新版本信息、對象規模和分塊信息,細節稍後介紹。記錄中具備一個版本列,指向最新版本的打包數據。這樣,讀取 CustomerId 老是會返回最新打包的數據。爲下降存儲的壓力,咱們使用一個列存儲打包數據。爲最小化具備頻繁觀看模式的會員的打包頻率,LiveVH 中僅存儲最近幾天的觀看歷史記錄。打包後,其他的記錄在打包期間會與 CompressedVH 中的記錄歸併。
經過分塊實現自動擴展
一般狀況是,對於大部分的會員而言,所有的觀看歷史記錄可存儲在一行壓縮數據中,這時讀操做流會給出至關不錯的性能。罕見狀況是,對於一小部分具備大量觀看歷史的會員,因爲最初架構中的同一問題,從一行中讀取 CompressedVH 的性能會逐漸下降。對於這類罕見狀況,咱們須要對讀寫延遲設置一個上限,以免對一般狀況下的讀寫延遲產生負面影響。
爲解決這個問題,若是數據規模大於一個預先設定的閾值,咱們會將打包的壓縮數據切分爲多個分塊,並存儲在不一樣的 Cassandra 節點中。即便某一會員的觀看記錄很是大,對分塊作並行讀寫也會將讀寫延遲控制在設定的上限內。
圖 3:經過數據分塊實現自動擴展
寫操做流
如圖 3 所示,打包壓縮數據基於一個預先設定的分塊大小切分爲多個分塊。各個分塊使用標識 CustomerId$Version$ChunkNumber 並行寫入到不一樣的行中。在成功寫入分塊數據後,元數據會寫入一個標識爲 CustomerId 的單獨行中。對很是大的打包觀看數據,這一作法將寫延遲限制爲兩次寫操做。這時,元數據行實現爲一個不具備數據列的行。這種實現支持對元數據的快速讀操做。
爲加快對一般狀況(即經壓縮的觀看數據規模小於預約的閾值)的處理,咱們將元數據與觀看數據合併爲一行,消除查找元數據的開銷,如圖 2 所示。
讀操做流
在讀取時,首先會使用行標識 CustomerId 讀取元數據行。對於一般狀況,分塊數是 1,元數據行中包括了打包壓縮觀看數據的最新版本。對於罕見狀況,存在多個壓縮觀看數據的分塊。咱們使用元數據信息(例如版本和分塊數)對不一樣分塊生成不一樣的行標識,並行讀取全部的分塊。這將讀延遲限制爲兩次讀操做。
改進緩存層
爲了支持對大型條目的分塊,咱們還改進了內存中的緩存層。對於存在大量觀看歷史的會員,整個壓縮的觀看歷史可能沒法置於單個 EVCache 條目中。所以,咱們採用相似於對 CompressedVH 模型的作法,將每一個大型緩存條目分割爲多個分塊,並將元數據存儲在首個分塊中。
結果
在引入了並行讀寫、數據壓縮和數據模型改進後,團隊達成了以下目標:
圖 4:運行結果
團隊實現了數據規模縮減約 6 倍,Cassandra 維護時間下降約 13 倍,平均讀延遲下降約 5 倍,平均寫時間下降約 1.5 倍。更爲重要的是,團隊實現了一種可擴展的架構和存儲空間,可適應 Netflix 觀看數據的快速增加。
在該博客系列文章的第二部分中,咱們將介紹存儲規模化中的一些最新挑戰。這些挑戰推進了會員觀看歷史數據存儲架構的下一輪更新。若是讀者對解決相似問題感興趣,可加入到咱們的團隊中。
查看英文原文:
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。