助力大數據集成，且看DataStage新玩法

時間 2019-11-17

標籤助力數據集成且看 datastage 玩法简体版

原文原文鏈接

1、大數據已成爲企業信息供應鏈中的重要一環html

咱們對大數據的認知在前幾年還僅僅停留在概念和理論中，但轉眼間，你會發現身邊的大數據項目如雨後春筍般拔地而起，大數據儼然成爲當今熱得不能再熱的話題和焦點。由於Hadoop及其相關開源技術的橫空出世和迅猛發展，愈來愈多的企業發現那些塵封已久的歷史數據或天天正在以指數級產生的交易數據、日誌數據和客戶行爲數據其實蘊藏着巨大的價值，猶如一座座還沒有開發的金礦，誰能搶佔先機，就能挖掘並實現巨大的商業價值。互聯網企業深諳此道，利用大數據分析結果進行產品推廣和定向營銷，大大改善了消費者的購物體驗和消費習慣，在收穫口碑的同時也賺得盆滿鉢滿！與此同時，傳統企業也在積極轉型，紛紛將Hadoop大數據平臺歸入到現有的IT架構和解決方案，那麼如何將傳統數據和大數據進行高效的集成、管理和分析呢？如何保證數據的準確性，一致性和可靠性呢？帶着衆多疑問，咱們來看看IBM所提供的DataStage大數據集成方案，一切必將豁然開朗。數據庫

2、大數據集成所面臨的挑戰apache

1.新型的數據存儲安全

大數據引入了新型的數據存儲，例如，Hadoop及NoSQL，這些新型的數據存儲都須要集成。
沒有好的傳統方法可以有效集成這些新型數據存儲。

2.新的數據類型及格式服務器

非結構化數據；半結構化數據；JSON, Avro ...
視頻、文檔、網絡日誌 ...
如何有效處理複雜且多樣化的數據

3.更大的數據量網絡

須要針對更大的數據量進行數據移動，轉換，清洗等等。
須要更好的可擴展性

3、大數據信息整合是Hadoop項目成敗的關鍵架構

大部分的Hadoop方案包括如下階段：oop

數據收集
數據移動
數據轉換
數據清洗
數據整合
數據探查
數據分析

因爲面對的是基於海量的，彼此孤立的異構數據源和數據類型，因此大部分企業的Hadoop項目將花費80%的精力在數據整合上，而僅有20%的精力用於數據分析。可見，數據集成對Hadoop項目的成敗有多重要。性能

4、IBM大數據集成解決方案：InfoSphere DataStage測試

1. 集中、批量式處理：整合和鏈接、清洗轉換大數據

Hadoop大數據做爲源和目標，同現有企業信息整合；
與現有整合任務具有一樣的開發界面和邏輯架構；
將處理邏輯下壓至MapReduce，利用Hadoop平臺最小化網絡開銷；
經過InfoSphere Streams流處理進行實時分析流程；
驗證和清洗大數據源的數據質量；
貫穿大數據和/或傳統數據流經過世系跟蹤和血緣分析；

2.面向大數據和傳統數據的豐富接口，支持企業全部的數據源和目標

對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API；
提供特定的ERP鏈接器；
基於JDBC、ODBC鏈接器提供靈活支持(MySQL)；
支持簡單和複雜的文件格式 (Flat, Cobol, XML, native Excel)；
支持擴展數據源：Web Services, Cloud, Java
鏈接Hadoop文件系統(HDFS)，提供可擴展的並行讀寫
直連InfoSphere Streams，支持實時分析處理
提供對NoSQL數據源（Hive,HBase,MongoDB,Cassandra）的支持

3.最普遍的異構平臺支持

4.IBM大數據集成方案帶給客戶的驚喜

5、DataStage連通Hadoop的最佳實踐

在DataStage中，可經過File Connector組件或Big Data File組件來鏈接Hadoop平臺,從而將傳統RDBMS數據庫或本地文件中的數據加載到HDFS。比較而言，Big Data File組件支持IBM BigInsights，提供更佳的讀寫性能；而File Connector組件則經過WebHDFS接口或HttpFS接口訪問HDFS,不依賴於Hadoop的品牌和版本，提供更普遍的兼容性。

FileConnector是DataStage v11.3面向Hadoop的全新組件，提供如下功能：

可用於讀/寫Hadoop文件系統(HDFS)
支持並行處理和線性擴展
不須要安裝其餘Hadoop客戶端軟件包
支持Kerberos認證
支持SSL安全訪問協議
支持Knox gateway
支持經過WebHDFS，HttpFS方式訪問Hadoop
支持訪問本地的Hadoop節點
更全面的支持Hadoop(不依賴於其版本變動)

下面以Apache Hadoop v2.7爲例，介紹經過配置File Connector將Oracle表數據寫入HDFS的方法：

1.安裝DataStage v11.3.1(參考如下連接)

http://www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en

2.配置Kerberos安全認證

將Apache Hadoop服務器上的krb5.conf文件(KDC配置信息)複製到DataStage服務器上的/etc目錄。

3.檢查Apache Hadoop的HDFS配置文件，確認已啓用WebHDFS支持

如何配置WebHDFS Rest API for Apache Hadoop v2.7：

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

4.配置SSL訪問Hadoop