使用Spark集羣進行ETL的架構介紹

什麼是ETL: ETL(extract提取、transform轉換、load加載)。ETL負責將分散的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後,進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘提供決策支持的數據。sql 使用Spark開發ETL系統的優點: 一、因爲海量的日誌記錄、交易記錄,單機進行ETL變得愈來愈困難。搭建一套具有大規模數據
相關文章
相關標籤/搜索