離線大數據開發實戰(讀書筆記)

第一章 概述 數據分爲以下幾類: 1.結構化數據 :數據庫中的數據 2.半結構化數據:日誌文件、XML/JSON 3.非結構化數據:圖像、聲音 數據儲存處理 1.離線處理:按天進行數據處理,每天凌晨等數據採集和同步的數據到位後,相關的數據處理任務會被按照預先誰的ETL(抽取、轉換、加載)邏輯以及ETL任務之間的拓撲關係一次調用。最終數據會被寫入離線數據倉庫中。離線數據倉庫通常是按照某一種建模思想(
相關文章
相關標籤/搜索