ADF 第五篇：轉換數據

時間 2020-12-18

標籤架構 app 性能優化 debug 代理調試日誌 orm blog 欄目系統架構简体版

原文原文鏈接

映射數據流（Mapping Data Flow）的核心功能是轉換數據，數據流的結構分爲Source、轉換和Sink（也就是Destination），這種結構很是相似於SSIS的數據流。架構

在數據流中，數據就像流水（stream）同樣，從上一個組件，流向下一個組件。組件之間有graph相鏈接，把各個組件鏈接爲一個轉換流（transformation stream），在數據流面板中，graph顯示爲一根線，用於表示數據從一個組件流向另外一個組件的路徑。app

轉換組件是數據流的核心組件，每個轉換組件都有輸入和輸出，接收上一個路徑上的組件輸入的數據，並向下一個路徑上的組件輸出數據。性能

一，建立映射數據流面板

打開一個數據工廠，切換到Author面板中，從「Factory Resources」中選擇「Data flows」，從後面的「...」 (Actions)中選擇「New mapping dataflow」，新建數據流面板：優化

初始的數據流面板以下圖所示，dataflow1是數據流面板的名稱，面板的中央是畫布，能夠向畫布中添加Source、轉換組件和Sink（destination）。debug

從dataflow的面板中點擊「Add Source」爲數據流添加源，添加數據源以後，source1是源的名稱，右下方有一個「+」號，表示爲源添加轉換功能。代理

在選中Source以後，面板中央的下方區域顯示爲Source的屬性面板，調試

1，Source setting 面板日誌

Source settings 用於設置Source的屬性，經常使用的Source屬性是Source type（源類型），最經常使用的類型是Dataset，表示從Dataset中獲取數據。orm

2，Optimize 面板blog

Optimize 選項卡用於設置分區架構，能夠設置Partition option、Partition type和 Number of partitions，分區會優化數據流的性能。

3，Inspect面板

Inspect 選項卡用於顯示數據流的元數據，該選項卡是一個只讀的視圖，從該選項卡中能夠看到數據流的列數量（column counts），列變化、增長的列、類的數據類型、列的順序等。

點擊Source右小角的「+」號，爲源添加轉換功能，這是數據流的核心功能，經常使用的轉換功能分爲四組：Multiple inputs/outputs、Schema modifier、Row modifier和Destination。

1，多輸入/輸出（Multiple inputs/outputs）

Join：用於表示鏈接，把多個Source（Input）鏈接成一個輸出流
Conditional Split：條件拆分，把一個Source 按照條件拆分紅多個輸出流
Exists：須要兩個輸入Left stream和Right stream，按照指定的條件和Exist type輸出數據，若是Exist type是Exists，那麼表示輸出Left Stream存在於Right stream的數據；若是Exist type是Doesn't exist，那麼表示輸出Left stream不存在於Right stream的數據。
Union：把多個輸入合併
Lookup：須要兩個輸入，Primary stream和Lookup stream，把Primary stream中存在於Lookup stream中的數據輸出。

2，Schema Modifier

對列進行修改：