AWS之Glue使用方法

時間 2021-01-02

標籤 AWS學習大數據 aws 简体版

原文原文鏈接

Glue是AWS的雲上ETL工具，核心是Spark，查詢也是先獲取數據源的元數據，再通過元數據溯源數據。本文示範使用Glue把數據從RDS抽到redshift的操作總體步驟： 1.連接數據源 2.建立爬網程序 3.運行爬網程序生成元數據表 4.建立作業 5.運行作業（再後面還可建立工作流程實現作業流，本文未涉及）建立連接連接可以是（半結構化）文件，和各種數據庫，和kafka 圖中的「數據

>>阅读原文<<