PB 級數據處理挑戰，Kubernetes如何助力基因分析？

時間 2019-11-19

原文原文鏈接

引言

James Watson 和 Francis Crick 於 1953 年發現了 DNA 的雙螺旋結構，今後揭開了物種進化和遺傳的神祕面紗，開啓了人類對數字化遺傳的認知，可是人類基因奧祕倒是一點點被讀懂的。緩存

1956 年，一則癌症和染色體相關性的發現令整個癌症研究界震動：慢性骨髓性白血病（CML）患者的第 22 號染色體，比通常然明顯短不少。二十餘年後，學者們發現，9 號染色體的 Abl 基因，與 22 號染色體的 BCR 基因連到了一塊，交錯易位產生了一條 BCR-Abl 融合基因。BCR-Abl 蛋白一直處於活躍狀態且不受控制，引起不受控的細胞分裂，從而致使癌症。安全

也就是說，只要細胞表達 BCR-Abl 蛋白，就有血癌風險。美國着手深刻研究，併成功推出了治療慢性骨髓性白血病的新葯。這，就是格列衛，也是去年《我不是藥神》中被咱們熟知的‘高價藥’。架構

在格列衛誕生前，只有 30% 的慢性骨髓性白血病患者能在確診後活過 5 年。格列衛將這一數字從 30% 提升到了 89%，且在 5 年後，依舊有 98% 的患者取得了血液學上的徹底緩解。爲此，它也被列入了世界衛生組織的基本藥物標準清單，被認爲是醫療系統中「最爲有效、最爲安全，知足最重大需求」的基本藥物之一。併發

容器混合雲如何應對基因測序的 IT 挑戰

基因測序在血液腫瘤領域應用的愈來愈普遍。根據病人的診斷結果, 血液腫瘤專科醫生會選擇相應的檢查，好比 PCR 結合實時熒光探針技術，來檢測測 BCR-Abl 融合基因，以診斷慢性骨髓性白血病，也能夠經過二代測序方式，SEGF（Single-end Gene Fusion）可以經過單端 NGS 測序數據檢測複雜的基因融合類型。框架

在另外一面，無創產檢唐氏／愛德華式篩查，近年來以高準確率和對胎兒的低風險，愈來愈受到國內年輕產婦的歡迎。基因公司每一年都完成幾十萬例的 NIPT 檢查，每一例的 NIPT 涉及到數百 MB+ 的數據處理，存儲和報告生成。一家大型基因測序功能公司每日會產生 10TB 到 100TB 的下機數據，大數據生信分析平臺須要達到 PB 級別的數據處理能力。這背後是生物科技和計算機科技的雙向支撐：測序應用從科研逐步走向臨牀應用，計算模式從離線向在線演進，交付效率愈來愈重要。less

基因計算面臨如下幾方面挑戰：機器學習

1.數據存儲：數據增加快，存儲費用高，管理困難；長期保存數據可靠性難以保障；須要尋求低成本大數據量的數據壓縮方式；元數據管理混亂，數據清理困難。
2.分發共享：海量數據須要快速、安全的分發到國內多地及海外；傳統硬盤寄送方式週期長，可靠性低；多地中心數據須要共享訪問。
3.計算分析：批量樣本處理時間長，資源需求峯谷明顯，難以規劃；大規模樣本的數據挖掘須要海量計算資源，本地集羣難以知足；計算工做1. 3. 流流程遷移困難、線上線下調度困難、跨地域管理困難；線下彈性能力差，按需計算需求。
4.安全合規：基因數據安全隱私要求極高；自建數據中心安全防禦能力不足；數據合約（區塊鏈）；RAM 子帳號支持。分佈式

而這樣看來一套完備架構方案則是必不可少的。與傳統高性能計算相比，按需切分任務的需求，自動從雲中申請資源，自動伸縮能力達到最小化資源持有成本，90% 以上的資源使用率，用完後自動返還計算資源。最大化資源的使用效率，最低單樣本的處理成本，最快速的完成大批量樣本的處理。隨着基因測序業務增加，自動完成線下資源使用，和線上資源擴容。高速內網帶寬，和高吞吐的存儲，和幾乎無限的存儲空間。性能

基因計算不一樣於常規的計算，對海量數據計算和存儲能力都提出了很高的要求。主要經過容器計算的自動伸縮特性和阿里雲 ECS 的自動伸縮能力的打通，能夠大規模彈性調度雲上的計算資源。經過對基因數據的合理切分，實現大規模的並行計算同時處理 TB 級別的樣本數據。經過按需獲取的計算能力，以及高吞吐的對象存儲的使用，大幅下降了計算資源持有的成本和單個樣本的處理成本。學習

總體技術架構是雲原生容器混合雲，雲上雲下資源一體，跨地域集羣統一管理。做爲主要 Player，容器技術在數據分拆，數據質量控制，Call 變異提供了標準化流程化、加速、彈性、鑑權、觀測、度量等能力，在另一方面，高價值挖掘須要藉助容器化的機器學習平臺和並行框架對基因、蛋白質、醫療數據完成大規模線性代數計算來創建模型，從而使精準醫療能力成爲現實。

基因工程中的關鍵問題及解決方案

數據遷移與傳輸
數據遷移、數據拆分階段百萬小文件的讀取對底層的文件系統壓力，經過避免沒必要要小文件的讀寫提升樣本的處理效率。經過數據中心與阿里雲的專線鏈接，實現高吞吐低延遲的數據上雲以及與工做流結合的上雲、校驗、檢測方式。而最終須要達成的目標是：在短期內完成數十 TB 級數據的加密搬遷，確保數據傳輸客戶端的高性能與安全性，實現併發傳輸、斷點續傳，且保有完善的訪問受權控制。
基因計算典型任務：加強型工做流
基因計算的典型特徵就是數據分批計算，須要按照特定步驟前後依次完成。將該問題抽象後，即須要申明式工做流定義 AGS(AlibabaCloud Genomics Service) workflow。

其工做流的特色是：多層次，有向無環圖。科研大工做流 1000-5000+ 深度的 DAG，須要準確的流程狀態監控和高度的流程穩定性。簡單流程從任意步驟重現啓動，失敗步驟能夠自動完成重試和繼續，定時任務，通知，日誌，審計，查詢，統一操做入口 CLI/UI 。

咱們採用的方案是：

1.簡單 YAML 申明式定義，多層次，有向無環圖, 複雜依賴支持, 任務自動分拆，自動並行化；

2.雲原生，與社區 Argo 徹底兼容的加強性 Workflow 定義；

3.實時資源統計，監控集成雲監控，雲日誌 SLS 集成, 審計集成, 定時任務；

4.統一操做入口 ags-cli 與 Kubectl 集成；

5.阿里雲存儲卷申明式支持，NAS，OSS，CloudDisk, 緩存加速支持。

雲上雲下資源的統一調度
經過跨越 IDC 和雲上可用區的混合雲 ACK 集羣實現計算資源的統一調度和數據的雲端匯聚。自動化，流程化上雲數據，和後續的數據處理流程，造成 24 小時內完成批次下機數據的本地，上雲，雲端處理和報告生成。按需彈性提供計算節點或者無服務化計算資源，造成按需計算能力，處理突發分析任務。我所帶領的阿里雲基因數據服務團隊努力構建更具彈性的容器化集羣，分鐘級數百節點自動伸縮能力和分鐘級數千輕量容器拉起的 Serverless 能力，經過提升並行度來提升內網帶寬的利用率，最終提升總體數據吞吐率，經過 NAS 客戶端和服務端的 TCP 優化來提升 IO 讀寫速度，經過爲 OSS 增長緩存層和分佈式的緩存來實現對象存儲讀取加速等等。

還有不少問題，篇幅緣由在此不一一展開：如何進行基因數據管理、最優化單位數據處理成本、採用批量計算的方式進行對樣本分析、怎樣使得基因數據處理安全及跨組織安全分享等等。

生命科學和精準醫學應用，將來已來

NovaSeq 測序儀帶來了低成本（100$/WGS）高產出（6TB 通量）的二代測序方案，大量 NovaSeq 的使用爲基因測序公司天天產出的幾十 TB 數據，這就要求大量的算力來分拆和發現變異，以及須要大量的存儲來保存原始數據和變異數據。阿里雲基因數據服務不斷提高極致彈性的計算能力，和大規模並行處理能力，以及海量高速存儲來幫助基因公司快速自動化處理天天幾十上百 TB 的下機數據，併產經過 GATK 標準產出高質量的變異數據。

以 PacBio 和 Nanopore 爲表明的三代測序的出現，超過 30K 到數百 K 的長讀，和 20GB 到 15TB 的大通量產出，長讀和數據量對數據比對，分拆，發現變異帶來了更大的算力須要和高 IO 吞吐的需求，對基因計算過程當中優化基因分析流程，拆分數據，按需調度大量計算資源，提供超高的 IO 吞吐帶來了更大的挑戰。

解碼未知，丈量生命。科技的每一小步，都會成爲人類前行的一大步。

原文連接本文爲雲棲社區原創內容，未經容許不得轉載。