在Hadoop上運行運營型工做負載

相比於Oracle、IBM DB二、Microsoft SQL Server、Informix、MySQL、PostgreSQL、Teradata等關係型數據庫以及Impala、Tez、Hive、Drill、Presto等SQL-on-Hadoop解決方案,Apache Trafodion 具備怎樣的優點?算法

Apache Trafodion是一流的數據庫,與上述的關係型數據庫並駕齊驅。每一個數據庫的功能和性能都不相同。若是您要從一個數據庫技術轉移到另外一個數據庫技術,會遇到不少挑戰(除非您只使用ANSI SQL功能)。可是,若是您在Trafodion上開發新的應用程序,就會發現Trafodion支持數據庫一般須要的全部功能。而與其餘的SQL-on-Hadoop技術相比,Trafodion具備更強大的數據庫引擎,支持更多功能。只是Trafodion在目前優化的工做負載類型方面有所不一樣,但這並非功能上的欠缺。相反,目前使用Apache HBase的該項目更適用於運營型工做負載。在不一樣的存儲引擎上運行的相同數據庫技術受益於HP強大的EDW(三臺250TB的系統,天天運行數萬條ELT和報表查詢,其中數百條是併發運行的)。雖然並無簡單的答案,但我但願爲您採用Trafodion提供一些理由。數據庫

從OLTP到分析型工做負載

根據企業處理的工做負載類型,企業的IT數據庫部署會有所不一樣。能夠將這些工做負載分爲運營型、BI和高級分析。一般,運營型工做負載是指OLTP或ODS。簡單來講(不必定全面),運營型工做負載運行公司的平常經營活動;BI和分析型工做負載有助於提升業務效率或改進業務,從而提升客戶的滿意度、改善產品和服務、提升收益和利潤率、得到更高的增加……。因爲這些工做負載及其優化存在不少差別,因此這些工做負載託管在不一樣的軟件和硬件架構中。這些工做負載的差別能夠歸類以下:緩存

clipboard.png

在這些工做負載下,過去常見的數據庫部署以下:session

clipboard.png

除了NonStop具備可擴展的MPP架構,大多數運營型工做負載都是部署在SMP架構上的(具備共享式緩存和磁盤)。從數據庫的角度看,一般會看到在Oracle或Oracle RAC、IBM DB二、Microsoft SQL Server上部署的規範化數據模型以及MySQL、PostgreSQL等開源數據庫。這些環境中託管的應用程序本質上是OLTP或主要是事務型的。
而後,數據被複制到BI環境中,轉化爲維度模型。因爲是歷史數據並且並行訪問能夠提升性能,因此這些系統一般部署在MPP架構中(例如Teradata和Oracle Exadata)。架構

ODS介於OLTP和BI之間。能夠根據ODS託管的工做負載的性質,將ODS部署在任意一套平臺上。ODS工做負載涉及了特定於客戶、供應商、產品的查詢,這是ODS和BI工做負載的差別。因此,從這個意義上,ODS對數據庫的訪問包含了更多查詢。而BI工做負載主要是跨客戶、供應商和產品類型,在多個維度訪問更多數據,其查詢一般比ODS更加複雜。
在BI中,若是您想要進行高級分析(例如,應用統計分析、數據挖掘算法、機器學習算法、時間序列分析、sessionization),數據將被複制(並可能聚合)到爲此類工做負載而優化的分析平臺。這些是MPP部署並提供列式存儲,將並行分析推到數據庫,用其餘功能促進高級分析(例如,Vertica、Aster Data、Greenplum和Netezza)。併發

大數據BI和分析

隨着大數據的出現,數據(例如,外部社會數據或IoT數據)已經成爲了企業的一部分,用於提升企業的績效。大數據分爲結構化、半結構化、非結構化數據,如今的數據更趨向於後二者。半結構化和非結構化數據包括,短信、Twitter消息、電子郵件、音頻或視頻文件、設備數據……。目前,愈來愈多的這些數據都託管在Hadoop平臺上,Hadoop平臺具備MPP架構、彈性擴展、高可用性數據複製。數據映射到多版本併發控制(Multi-version Concurrency Control,MVCC)或僅附於Hadoop文件系統(HDFS)結構。機器學習

clipboard.png

到目前爲止,BI報表和分析型工做負載一直是Hadoop部署的主要關注點。這與以前討論的內容在本質上大致是互補的。一般,外部數據與BI和分析平臺上的結構化數據是互補的。結構化數據是在企業內部生成的,一般來自於運營系統。在這方面,Hortonworks Apache Tez、Hortonworks Apache Hive、Cloudera Impala、MapR Drill、MapR Presto、Databricks Spark都使用底層的結構提供多種功能,例如JSON文件存儲、Avro、ORC文件和Parquet(最後兩個是列式存儲)。
可是隨着Hadoop平臺和這些工具的不斷成熟,愈來愈須要將現有的BI和分析平臺上的某些結構化數據與Hadoop上的數據集成,以提升決策力。因爲Hadoop和開源部署的整體擁有成本(TCO)較低,因此其中的一些工做負載會從典型的BI和分析平臺卸載至Hadoop。分佈式

在Hadoop上運行OLTP和ODS

不少運營型工做負載(不管是事務型工做負載,仍是運營型數據存儲工做負載)也能夠利用Hadoop平臺下降TCO、得到彈性擴展和高可用性複製。一般,企業資源計劃(ERP)、客戶關係管理(CRM)、製造資源計劃(MRP)、供應鏈管理(SCM)、財務資源管理(FRM)和人力資源管理(HRM)系統都須要以較低的TCO擴展至超過SMP系統的規模。工具

clipboard.png

Hadoop有助於擴展功能,或將工做負載從關鍵任務的環境中卸載。將非關鍵的OLTP工做負載/應用程序遷移到Hadoop,專有部署就會增加,並確保在這些環境中運行的關鍵應用程序都具備更佳的SLA。在Hadoop上,運營型數據存儲部署可使客戶訪問比如今更多的歷史數據。以後,客戶也能夠開始在Hadoop上部署關鍵任務應用程序。
這就是Apache Trafodion 優化的工做負載。Trafodion跨多行、表和語句,提供全面的ACID事務處理能力。其普遍的ANSI SQL支持使您能夠利用現有的SQL技術和工具,使現有應用程序的轉換和現代化或構建新的應用程序變得更加容易。其成熟的數據庫引擎能夠處理跨事務更新、運營型查詢、報表工做負載。oop

Apache Trafodion 的價值定位

因爲全部的數據都在同一個平臺上,您可能想要轉化或現代化您的應用程序,將半結構化、非結構化數據與結構化數據整合在一塊兒,向您的客戶或內部的業務用戶提供更多的功能、更豐富的接口。並且,只要在Trafodion中捕獲到數據,就能夠利用整個Hadoop生態系統生成報告並進行分析(無延遲)。對於閉環分析,您能夠生成分析型模型,而後將模型部署到Trafodion託管的應用程序。無需從其餘平臺複製數據。能夠跨運營型、歷史和分析型工做負載共享引用數據。BI和分析能夠在更大程度上提升決策力,歷史數據和外部數據也是如此。經過Trafodion,還能夠基於從BI和分析中得到的智能,快速採起業務行動。除了Hadoop固有的彈性擴展和低TCO,這是另外一項優點。

做者:Rohit Jain 是Esgyn的首席技術官,具備解決方案架構師、數據庫顧問、開發、開發經理、產品經理的工做經驗。加入Esgyn以前,Rohit曾擔任Hewlett-Packard的首席技術官,負責SeaQuest和Trafodion。在39年的應用程序和數據庫職業生涯中,Rohit在運營型和分析型工做負載的大規模並行處理和分佈式計算解決方案方面作出了開拓性的貢獻。

相關文章
相關標籤/搜索