經過DataWorks數據集成歸檔日誌服務數據至MaxCompute進行離線分析

時間 2019-12-07

標籤經過 dataworks 數據集成歸檔日誌服務 maxcompute 進行離線分析简体版

原文原文鏈接

經過DataWorks歸檔日誌服務數據至MaxCompute

官方指導文檔：https://help.aliyun.com/document_detail/68322.html
可是會遇到你們在分區上或者DataWorks調度參數配置問題，具體拿到真實的case模擬以下：html

建立數據源：

步驟一、進入數據集成，點擊做業數據源，進入Tab頁面。web

步驟二、點擊右上角測試

新增數據源，選擇消息隊列 loghub。spa

步驟三、編輯LogHub數據源中的必填項，包括數據源名稱、LogHub
Endpoint、Project、AK信息等，並點擊測試連通性。3d

建立目標表：

步驟一、在左側tab也中找到臨時查詢，並右鍵>新建ODPS SQL節點。日誌

步驟二、編寫建表DDL。
步驟三、點擊
執行按鈕進行建立目標表，分別爲ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。server

步驟四、直到日誌打印成本，表示三條DDL語句執行完畢。htm

步驟五、能夠經過desc 查看建立的表。blog

其餘兩張表也能夠經過desc 進行查詢。確認數據表的存在狀況。隊列

建立數據同步任務

數據源端以及在DataWorks中的數據源連通性都已經配置好，接下來就能夠經過數據同步任務進行採集數據到MaxCompute上。

操做步驟

步驟一、點擊
新建業務流程並確認提交，名稱爲直播日誌採集。

步驟二、在業務流程開發面板中依次建立以下依賴並命名。

依次配置數據同步任務節點配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步驟三、雙擊

web_tracking_log_syn 進入節點配置，配置項包括數據源（數據來源和數據去向）、字段映射（源頭表和目標表）、通道控制。

根據採集的時間窗口自定義參數爲：

步驟四、能夠點擊高級運行進行測試。

能夠分別手工收入自定義參數值進行測試。

步驟五、使用SQL腳本確認是否數據已經寫進來。以下圖所示：

日誌服務的日誌正式的被採集入庫，接下來就能夠進行數據加工。
好比能夠經過上述來統計熱門房間、地域分佈和卡頓率，以下所示：

具體SQL邏輯不在這裏展開，能夠根據具體業務需求來統計分析。依賴關係配置如上圖所示。

本文做者：禕休

原文連接

本文爲雲棲社區原創內容，未經容許不得轉載。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。