經過DataWorks數據集成歸檔日誌服務數據至MaxCompute進行離線分析

可是會遇到你們在分區上或者DataWorks調度參數配置問題,具體拿到真實的case模擬以下:web

建立數據源:

步驟1      進入數據集成,點擊做業數據源,進入Tab頁面。測試

步驟2      點擊右上角
新增數據源,選擇消息隊列 loghub。spa

步驟3 編輯LogHub數據源中的必填項,包括數據源名稱、LogHub
Endpoint、Project、AK信息等,並點擊 測試連通性。3d

建立目標表:

步驟1      在左側tab也中找到臨時查詢,並右鍵>新建ODPS SQL節點。日誌

步驟2      編寫建表DDL。
步驟3      點擊
執行 按鈕進行建立目標表,分別爲ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。server

步驟4      直到日誌打印成本,表示三條DDL語句執行完畢。blog

步驟5      能夠經過desc 查看建立的表。隊列

其餘兩張表也能夠經過desc 進行查詢。確認數據表的存在狀況。開發

建立數據同步任務

數據源端以及在DataWorks中的數據源連通性都已經配置好,接下來就能夠經過數據同步任務進行採集數據到MaxCompute上。
操做步驟
步驟1      點擊
新建業務流程 並 確認提交,名稱爲 直播日誌採集。get

步驟2      在業務流程開發面板中依次建立以下依賴並命名。

依次配置數據同步任務節點配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步驟3      雙擊
web_tracking_log_syn 進入節點配置,配置項包括數據源(數據來源和數據去向)、字段映射(源頭表和目標表)、通道控制。

根據採集的時間窗口自定義參數爲:

固然其消費點位也能夠按照自定義設置5分鐘調度一次,從00:00到23:59,startTime=[yyyymmddhh24miss−10/24/60]系統前10分鐘到endTime=[yyyymmddhh24miss-5/24/60]系統前5分鐘時間(注意與上圖消費數據定位不一樣),那麼應該配置爲ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步驟4      能夠點擊高級運行進行測試。

能夠分別手工收入自定義參數值進行測試。

步驟3      使用SQL腳本確認是否數據已經寫進來。以下圖所示:

日誌服務的日誌正式的被採集入庫,接下來就能夠進行數據加工。
好比能夠經過上述來統計熱門房間、地域分佈和卡頓率,以下所示:

具體SQL邏輯不在這裏展開,能夠根據具體業務需求來統計分析。依賴關係配置如上圖所示。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索