助力大數據集成,且看DataStage新玩法

大數據處理

1、大數據已成爲企業信息供應鏈中的重要一環html

咱們對大數據的認知在前幾年還僅僅停留在概念和理論中,但轉眼間,你會發現身邊的大數據項目如雨後春筍般拔地而起,大數據儼然成爲當今熱得不能再熱的話題和焦點。由於Hadoop及其相關開源技術的橫空出世和迅猛發展,愈來愈多的企業發現那些塵封已久的歷史數據或天天正在以指數級產生的交易數據、日誌數據和客戶行爲數據其實蘊藏着巨大的價值,猶如一座座還沒有開發的金礦,誰能搶佔先機,就能挖掘並實現巨大的商業價值。互聯網企業深諳此道,利用大數據分析結果進行產品推廣和定向營銷,大大改善了消費者的購物體驗和消費習慣,在收穫口碑的同時也賺得盆滿鉢滿!與此同時,傳統企業也在積極轉型,紛紛將Hadoop大數據平臺歸入到現有的IT架構和解決方案,那麼如何將傳統數據和大數據進行高效的集成、管理和分析呢?如何保證數據的準確性,一致性和可靠性呢?帶着衆多疑問,咱們來看看IBM所提供的DataStage大數據集成方案,一切必將豁然開朗。數據庫

大數據處理

2、大數據集成所面臨的挑戰apache

1.新型的數據存儲安全

  • 大數據引入了新型的數據存儲,例如,Hadoop及NoSQL,這些新型的數據存儲都須要集成。
  • 沒有好的傳統方法可以有效集成這些新型數據存儲。

2.新的數據類型及格式服務器

  • 非結構化數據;半結構化數據;JSON, Avro ...
  • 視頻、文檔、網絡日誌 ...
  • 如何有效處理複雜且多樣化的數據

3.更大的數據量網絡

  • 須要針對更大的數據量進行數據移動,轉換,清洗等等。
  • 須要更好的可擴展性

大數據處理

3、大數據信息整合是Hadoop項目成敗的關鍵架構

大部分的Hadoop方案包括如下階段:oop

  • 數據收集
  • 數據移動
  • 數據轉換
  • 數據清洗
  • 數據整合
  • 數據探查
  • 數據分析

因爲面對的是基於海量的,彼此孤立的異構數據源和數據類型,因此大部分企業的Hadoop項目將花費80%的精力在數據整合上,而僅有20%的精力用於數據分析。可見,數據集成對Hadoop項目的成敗有多重要。性能

大數據處理

4、IBM大數據集成解決方案:InfoSphere DataStage測試

1. 集中、批量式處理:整合和鏈接、清洗轉換大數據

  • Hadoop大數據做爲源和目標,同現有企業信息整合;
  • 與現有整合任務具有一樣的開發界面和邏輯架構;
  • 將處理邏輯下壓至MapReduce,利用Hadoop平臺最小化網絡開銷;
  • 經過InfoSphere Streams流處理進行實時分析流程;
  • 驗證和清洗大數據源的數據質量;
  • 貫穿大數據和/或傳統數據流經過世系跟蹤和血緣分析;

大數據處理

2.面向大數據和傳統數據的豐富接口,支持企業全部的數據源和目標

  • 對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API;
  • 提供特定的ERP鏈接器;
  • 基於JDBC、ODBC鏈接器提供靈活支持(MySQL);
  • 支持簡單和複雜的文件格式 (Flat, Cobol, XML, native Excel);
  • 支持擴展數據源:Web Services, Cloud, Java
  • 鏈接Hadoop文件系統(HDFS),提供可擴展的並行讀寫
  • 直連InfoSphere Streams,支持實時分析處理
  • 提供對NoSQL數據源(Hive,HBase,MongoDB,Cassandra)的支持

大數據處理

3.最普遍的異構平臺支持

大數據處理

4.IBM大數據集成方案帶給客戶的驚喜

大數據處理

5、DataStage連通Hadoop的最佳實踐

在DataStage中,可經過File Connector組件或Big Data File組件來鏈接Hadoop平臺,從而將傳統RDBMS數據庫或本地文件中的數據加載到HDFS。比較而言,Big Data File組件支持IBM BigInsights,提供更佳的讀寫性能;而File Connector組件則經過WebHDFS接口或HttpFS接口訪問HDFS,不依賴於Hadoop的品牌和版本,提供更普遍的兼容性。

大數據處理

FileConnector是DataStage v11.3面向Hadoop的全新組件,提供如下功能:

  • 可用於讀/寫Hadoop文件系統(HDFS)
  • 支持並行處理和線性擴展
  • 不須要安裝其餘Hadoop客戶端軟件包
  • 支持Kerberos認證
  • 支持SSL安全訪問協議
  • 支持Knox gateway
  • 支持經過WebHDFS,HttpFS方式訪問Hadoop
  • 支持訪問本地的Hadoop節點
  • 更全面的支持Hadoop(不依賴於其版本變動)

下面以Apache Hadoop v2.7爲例,介紹經過配置File Connector將Oracle表數據寫入HDFS的方法:

1.安裝DataStage v11.3.1(參考如下連接)

http://www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en

2.配置Kerberos安全認證

將Apache Hadoop服務器上的krb5.conf文件(KDC配置信息)複製到DataStage服務器上的/etc目錄。

3.檢查Apache Hadoop的HDFS配置文件,確認已啓用WebHDFS支持

大數據處理

如何配置WebHDFS Rest API for Apache Hadoop v2.7:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

4.配置SSL訪問Hadoop

  • 登錄DataStage服務器,使用keytool命令建立truststore,用於存放來自於Hadoop服務器的SSL安全證書,該truststore名爲test.jks, 在/opt目錄下

keytool -genkey -alias test -keystore test.jks -storepass test

  • 將Hadoop服務器上的SSL證書(例如cert.pem)複製到DataStage服務器
  • 在DataStage服務器上經過keytool命令導入證書cert.pem

keytool -import -trustcacerts -alias test -file cert.pem -keystore test.jks -storepass test -noprompt

  • 用DataStage自帶的encrypt.sh命令加密上面所建立truststore的password,獲得加密後的二進制密碼(例如{iisenc} iWuRnROgFLbk0H1sjfIc7Q==)

cd /opt/IBM/InformationServer/ASBNode/bin/

[root@IBM-DataStage bin]# ./encrypt.sh

Enter the text to encrypt: test

Enter the text again to confirm: test

{iisenc} iWuRnROgFLbk0H1sjfIc7Q==

  • 在/opt目錄下建立一個名爲properties.txt的文本文件,添加內容以下

password={iisenc}iWuRnROgFLbk0H1sjfIc7Q==

  • 修改DataStage配置文件(dsenv),添加如下環境變量

DS_TRUSTSTORE_LOCATION=/opt/test.jks

DS_TRUSTSTORE_PROPERTIES=/opt/properties.txt

  • 重啓DataStage

5.在DataStage開發客戶端中找到File Connector組件

大數據處理

6.配置File Connector組件的屬性

  • 經過WebHDFS接口訪問Apache Hadoop
  • 採用Kerberos安全認證(指定Keytab文件)
  • 採用https協議及相應端口
  • 將源表數據自動拆分紅多個文件並行寫入HDFS(爲提升性能,利用8個節點同時寫數據)

大數據處理

7.運行DataStage做業,可看到數據已成功寫入Hadoop HDFS

雖然本次測試是基於虛擬機環境,但DataStage所展示出來的性能依然很是強勁,從Oracle讀取4.64億條記錄並寫入HDFS,僅需10分鐘左右,最高速率達到619495 行/秒。若是增長CPU以提升並行度,性能更可線性增加!

大數據處理

在目標端生成的HDFS文件列表(8個子文件):

大數據處理

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

相關文章
相關標籤/搜索