7年沉澱之做--滴滴Logi日誌服務套件

01 日誌服務面臨的挑戰

隨着中美摩擦的升級,國內開源文化的興起,各大互聯網公司以及各行業頭部企業,紛紛走向開源、安全、自主、可控的發展路線。基於開源引擎 Kafka/ElasticSearch,構建了日誌基礎設施的基礎架構共識:
 
 
  • 日誌採集能力:服務端、客戶端、Web、數據庫的日誌蒐集工做;
  • 日誌ETL能力:日誌實時ETL、ETL鏈路監控,ETL鏈路質量度量;
  • 日誌檢索能力:全文搜索能力、日誌上下文還原能力;
  • 日誌分析能力:Adhoc的日誌OLAP能力。
隨着日誌流量、日誌任務持續增長,使得「日誌時效性、運維友好性、服務穩定性、數據安全性」問題變得很是棘手,如:
 
1)日誌採集階段面臨的挑戰
  • 須要支持物理機、虛擬機、容器化場景,以服務粒度進行日誌採集;支持彈性動態擴縮容;
  • 須要支持海量、數十萬Agent監控、運維、多版本管理;
  • 須要支持共享多租戶分級保障模型;
  • 須要針對任務級別提供豐富的指標,故障診斷和自愈能力。
2)日誌ETL階段面臨的挑戰
  • ETL語義表達要簡單清晰可運維,同時與底層基礎設施解耦,對SQL表達方式是強需求;
  • ETL鏈路涉及多個環節,各自有本身的指標體系,口徑不統一,問題定位與排查成本很高;
  • ETL鏈路涉及日誌存儲與計算,在Quota內端到端彈性擴縮能力充滿了技術挑戰。
3)日誌存儲面臨的挑戰
  • Kafka磁盤IO熱點致使的集羣生產消費雪崩;
  • Topic資源隔離差,流量突增、回溯消費,影響集羣穩定性;
  • Kafka有大量的集羣和topic的操做須要平臺來承接社區Kafka-Manager能力缺失。
4)日誌檢索麪臨的挑戰
  • ElasticSearch受制於元信息瓶頸,集羣Shard數沒法突破數十萬級,須要解決擴展性問題;
  • ElasticSearch集羣資源多租戶與查詢隔離體系的缺失,是穩定性的最大殺手;
  • ElasticSearch端到端立體化監控體系缺失,運維保障能力不足,須要解決運維友好性問題。
5)日誌分析面臨的挑戰
  • 億級明細數據級的Adhoc查詢分析能力;
  • 億級基數維度列高精去重場景能力的支撐;
  • 端到端立體化監控體系的缺失,運維保障能力不足,須要解決運維友好性問題。

02 滴滴Logi日誌服務套件

伴隨着企業數字化轉型、業務全面上雲的進程,微服務、容器化等技術的快速發展,業務對穩定、易用的日誌基礎設施提出了三大迫切需求:
  • 服務保障的須要:全鏈路追蹤是穩定性保障的重要抓手;
  • 業務運營的須要:A/B TEST、活動運營分析、端上用戶行爲分析、精準營銷,對百MB/S日誌的秒級收容能力,TB級日誌的秒級搜索能力強烈訴求;
  • 業務安全的須要:識別攻擊源進行資產止損,安全審計與溯源,TB級別日誌Adhoc分析能力。
滴滴Logi日誌服務套件在滴滴內部通過7年多的沉澱打磨,針對日誌採集、日誌存儲、日誌計算、日誌檢索、日誌分析各個環節,在組件能力上PAAS化建設、在引擎穩定性與擴展性上進行鍼對性的優化,架構以下:
 
 
具備以下優點:
  • 開源自主可控:Logi-Agent、Logi-LogX、Logi-KafkaManager、 Logi-ElasticSearchManager 各PAAS套件計劃全開源;
  • 引擎穩定可靠:Agent 40MB/S的單任務採集性能,可控資源的隔離能力;LogX採集任務的實時ETL秒級延遲、計算性能的極致優化;滴滴kafka百GB/S的實時流量;滴滴ElasticSearch數十PB的索引存儲集羣穩定性99.95%;
  • 服務運營沉澱:數十萬日誌服務任務端到端全鏈路保障日誌數據的及時性、完整性、可觀察性、運維友好性;資源的彈性調度與分級保障能力的產品化沉澱;
  • 平臺專業易用:分鐘級完成日誌全鏈路的端到端自助接入;SQL模板+UDF的個性化清洗能力支持;百TB級數據秒級的檢索體驗。

》Logi-Agent介紹

Logi-Agent致力於打造企業級的數據採集平臺,負責公司多端、多態數據的採集,架構以下:
 
 
滴滴Logi-Agent線上規模10W部署節點,130GB/s的日誌採集量,20000+日誌採集任務,單任務最大采集能力40MB/S。

》Logi-Kafka介紹

基於用戶、研發、運維不一樣視角的高頻場景PAAS化,提高運維友好性、引擎可觀察性、用戶便利性,已開源https://github.com/didi/kafka-manager 500+免費用戶,體驗地址: http://117.51.146.109:8080/ ,帳號密碼:admin/admin
 
 
滴滴Kafka集羣規模500+,60GB/S的流量,共享多租戶大集羣場景的歷練(CPU利用率峯值30%,磁盤50%),SLA承諾99.95%,引擎基於2.5版本進行了40+特性加強,磁盤過載保護,分區動態遷移,業務線程隔離是滴滴特點功能,穩定性的重要抓手!

》Logi-LogX介紹

LogX面向服務以MB/S做爲Quota的單位,以SreamingSQL+UDF做爲ETL表達載體,支持以Quota爲單位的動態擴、縮容能力,以任務爲單位,構建通道端到端性能、及時性、完整性指標體系。
 
 
滴滴20000+StreamingSQL ETL 任務,單任務最大流量500MB/S,端到端ETL延遲90分位小於2Min,具有分鐘級動態擴縮容能力。

》Logi-ElasticSearch介紹

業界最專業的ElasticSearch-Manager,基於用戶、研發、運維不一樣視角的高頻場景PAAS化,沉澱了全託管特點的索引服務。
 
提供了基於索引模板的容量規劃特性,集羣磁盤利用率30%→65%,開源準備中。
 
自研ElasticSearch-GateWay,提供跨集羣訪問,多版本兼容,租戶定義與安全,DSL審覈與分析等重大拓展實用特性,支撐了滴滴50億次/天的數據讀取,1200W/S的數據寫入,是ES引擎平滑升級2.3.3->6.6.1->7.6.1的基石組件。
 
 
滴滴ElasticSearch集羣規模3500+,8PB存儲,共享多租戶大集羣(1000+實例,60W Shard,CPU利用率峯值45%,磁盤60% )場景的歷練。
 
SLA承諾99.95%,引擎基於7.6.1版本進行了150+特性加強,寫入性能是社區版本2倍。
 
FastIndex 50TB索引1小時完成構建,已開源( https://github.com/didi/ES-Fastloader )。
 
自研DCDR,提供了集羣間索引高可用的能力,爲線上50+主搜場景提供了異地多活的能力,累積向ES社區貢獻 30+PR。

03 滴滴Logi應用案例

 
滴滴Logi在滴滴內部服務的場景很是豐富,在故障定位、日誌分析、日誌服務、業務運營、安全審計、日誌資產、日誌大屏等場景都有深度實踐。
限於篇幅接下來會圍繞着日誌服務LogInsight和業務運營魔鏡這兩個方面詳細展開,分析基於滴滴Logi可以產生的業務價值。

》LogInsight

 
LogInsight基於滴滴Logi的能力,主打雲端日誌存儲解決方案,針對雲化和容器化後面臨的日誌存儲與分析的訴求,提供了日誌冷備、資源管理、日誌檢索等能力。
 
  • 顯著下降日誌使用、存儲成本 全託管、彈性伸縮,免運維 冷備存儲,約0.02元/GB/月,顯著下降存儲開銷,支持1-365天自定義存儲時間;
  • 快速發現、定位問題,提升業務穩定 基於大數據流式計算實現接口性能與錯誤日誌的統計分析,提供接口調用關係、拓撲關係、上下游流量分析、服務錯誤定位、錯誤聚類等功能;安全可靠
  • 安全可靠 可用性不低於99.9%,天天可處理上百TB日誌量 數據實時採集,分鐘級落盤,日誌存儲不丟失知足日誌審計需求。

》魔鏡

 
魔鏡是專業的場景化用戶行爲智能分析平臺,提供從數據採集、存儲、計算、分析到運營推廣的全流程解決方案。
 
  • 場景化分析模型 用戶留存分析,用戶軌跡分析,用戶畫像分析;
  • 基礎服務能力 核心指標可實時查當日數據,實時計算,秒級產生數據,大盤支持集成報表;
  • 數據分析能力 非研發人員可自建指標,支持多類型可視化報表,支持數據導出隨心分析,支持omega數據上報數據;
  • 多產品滿意度調研 支持多組織多產品結構,支持線上自動化配置,支持抽獎,提升參與度。
基於滴滴Logi日誌服務套件,滴滴Logi不只可以更好的知足日誌場景企業廣泛的運維可觀察性、應用可觀察性訴求,也可以更好的知足業務運營、安全審計、日誌分析、日誌挖掘等不一樣場景全方位的需求。
 
滴滴Logi的總體開源計劃以下,歡迎你們關注。
 
 
在生產環節使用開源版的企業用戶,能夠加入 OCE ,咱們會額外給予更好的支持,好比專屬的技術沙龍、企業一對一的交流機會、專屬的答疑羣等。OCE申請入口在 Obsuite公衆號 的菜單裏,點擊 【OCE認證】 也可直接申請。
 
相關文章
相關標籤/搜索