今天分享一個新的Azure 服務-----Azure Data Factory(Azure 數據工廠),怎麼理解,參考根據官方解釋-----數據工廠解釋:大數據須要能夠啓用協調和操做過程以將這些巨大的原始數據存儲優化爲可操做的業務看法的服務。 Azure 數據工廠是爲這些複雜的混合提取-轉換-加載 (ETL)、提取-加載-轉換 (ELT) 和數據集成項目而構建的託管雲服務。html
說簡單點,Azure Data Factory 能夠建立和計劃數據驅動型工做,也就是 Pineline,從不一樣的數據源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)中提取數據,進行加工處理,進行復雜計算後,將這些有價值的數據能夠歸檔,存儲到不一樣的目標源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)編程
--------------------我是分割線--------------------測試
Azure Data Factory 中的Pipeline 一般執行如下三個步驟:大數據
1,鏈接,收集:鏈接,收集是指在構建 pipeline 時須要有數據源,而後再將數據源中提取出來的數據進行加工處理,經過使用 Data Factory 中的 pipeline ,添加 「Activites」 操做,將數據從本地和雲的源數據存儲移到雲的集中數據存儲進行進一步的分析。優化
2,轉換和擴充:將DataSet 中收集到的數據源的數據,可使用一些其餘的服務,例如 DataB ,Machine Learning進行數據處理,轉化,能夠將這些數據轉化成有價值的,可信的生產環境的數據spa
3,發佈:這裏的發佈,並非指代碼的發佈,而是指手動觸發將轉化、處理好的數據傳送到目標源,同時能夠設置Trgger ,定時執行發佈計劃。3d
Azure Data Factory 中一些關鍵組件:htm
1,pipeline:這裏的 pipeline 要和Azure DevOps 中的 pipeline 概念上有些相似,它是指咱們的Azure Data Factory 能夠包含一個或者多個 pipeline 。pipeline是有多個Activites組成,來執行一項任務的。以下圖所示,這裏顯示多個pipeline。blog
2,Activities:一個pipeline 能夠有多個 Activities,這些是對數據執行的一些動做,例如 複製數據,以下圖,當前 Pipeline 中包含了一個 Copy dataip
3,datasets(數據集):簡單理解,就是包含了 數據源、目標源。數據集可識別不一樣數據存儲(如表、文件、文件夾和文檔)中的數據,使用零個或多個 "datset" 做爲輸入,一個或多個 "dataset" 做爲輸出。
4,linked services:連接服務就比如連接字符串,密鑰等信息,用於定義Azure Data Factory 連接到外部資源時所需喲啊的鏈接信息,以下圖連接服務指連接到Azure Storage Account 所須要的鏈接字符串。
同時,點擊 「Test connection」 進行測試,是否能夠正常鏈接。
Data Factory 中 Data Set,Activity,Linked Service,Pipeline 直接的關係
Azure Data Factory不存儲任何數據。咱們可使用它用於建立數據驅動型工做流,在支持的數據存儲之間協調數據的移動(建立一個包含 pipiline 的 Data Factory,將數據從 Blob1 存儲移動到 Blob2 存儲)。 它還能夠用於在其餘區域或本地環境中經過計算服務來處理數據。 它還容許使用編程方式及 UI 機制來監視和管理工做流。
今天只是對 Azure Data Factory 有一個初步的認識,以及能夠用來作什麼,下一篇文章實際建立Aure Data Factory,經過建立 pipeline 配置將 storage1 的數據複製到 storage2 中。
參考資料:Azure Data Factory(英文),Azure Data Factory(中文)
做者:Allen
版權:轉載請在文章明顯位置註明做者及出處。如發現錯誤,歡迎批評指正。