SKIL/工作流程/分佈式ETL

分佈式ETL ETL代表提取、轉換和加載。它是機器學習問題中數據準備和預處理的一個常見工作流程。ETL是從數據源中提取或拉取數據,將其轉換爲可用形式,然後將其加載到模型/數據庫中進行訓練/分析。 SKIL中的分佈式ETL是指在spark集羣上以分佈式模式對提取的數據進行轉換。   使用Spark集羣 要使分佈式ETL工作,你需要在後端有一個Spark集羣,並且需要一個客戶機,一個包含「SparkC
相關文章
相關標籤/搜索