構建數據管道須要考慮的問題:安全
及時性 可靠性 高吞吐量和動態吞吐量 數據格式 轉換 安全性 故障處理能力 耦合性與靈活性blog
數據管道的構建分爲2個陣營,ETL和ELT進程
ETL:提取-轉換-加載 當數據流經管道時,數據管道負責處理他們原理
ELT:提取-加載-轉換:數據管道只作少許的轉換,高保真配置
數據管道最重要的做用是解耦數據源和數據池im
發生耦合狀況: 臨時數據管道 元數據丟失 末端處理數據
Connect工做原理img
鏈接器和任務co
鏈接器實現了ConnectorAPI ,API 包含如下2部分:安全性
鏈接器負責如下3件事: 決定運行多少任務,按照任務拆分數據複製,從worker進程獲取任務配置並將其傳遞下去
任務:負責將數據移入/移出Kafka
work進程
轉化器和Connect數據模型
偏移量管理器