dkhadoop大數據處理架構詳解

大數據的時代已經來了,信息的爆炸式增加使得愈來愈多的行業面臨這大量數據須要存儲和分析的挑戰。Hadoop做爲一個開源的分佈式並行處理平臺,以其高拓展、高效率、高可靠等優勢愈來愈受到歡迎。這同時也帶動了hadoop商業版的發行。這裏就經過大快DKhadoop爲你們詳細介紹一下hadoop大數據平臺架構內容。
目前國內的商業發行版hadoop除了大快DKhadoop之外還有像華爲雲等。雖然發行方不一樣,但在平臺架構上類似,這裏就以我比較熟悉的dkhadoop來介紹。
dkhadoop大數據處理架構詳解
一、大快Dkhadoop,能夠說是集成了整個HADOOP生態系統的所有組件,並對其進行了深度優化,從新編譯爲一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。所以DKH相比開源的大數據平臺,在計算性能上有了很是高的提高。這一點也是我的以爲dkhadoop比我以前使用的另一個商業發行版的要好的,國內的大部分商業發行版hadoop能夠說都是二次包裝,dkhadoop作的好的就是敢在原生態的基礎上進行開發。算法

二、大快DKhadoop中間件技術把大數據集羣配置簡化成三種節點,這樣不只簡化了集羣的管理運維,還加強了集羣的可用性和穩定性。Dkhadoop中間件集成了apache的不少組件包含了從文件、SQL、日誌、消息到爬蟲和流數據以及異構數據的支持;集成了大快的壓縮算法,和數據同步分發技術,實現了數據的導入和減小調動的同時實現,對於有實時數據要求的項目具備不可替代的技術優點。
三、大快DKhadoop商業發行版仍是保持了開源系統的優勢的,能夠與開源系統100%兼容。對於那些基於開源平臺開發的大數據應用並不須要通過改動一樣能夠在dkhadoop上高效運行。
四、DKhadoop一體化開發框架提供了大數據、搜索、天然語言處理和人工智能開發中經常使用的二十多個類,總計一百餘種方法,實現了開發效率的大幅提高。DK.HADOOP整合集成了NOSQL數據庫,簡化了文件系統與非關係數據庫之間的編程;DK.HADOOP改進了集羣同步系統,使得HADOOP的數據處理更加高效。
五、DKhadoop的SQL版本,還提供了分佈式MySQL的集成,傳統的信息系統,可無縫的實現面向大數據和分佈式的跨越。
六、ES:大快DKhadoop的搜索系統是在開源ES系統上二次開發的,支持完成的全文搜索。整合了對中文搜索的有效支持以及對大快數據同步技術的支持後的高性能版本,DK.ES是DKH的核心組件之一,僅隨DKH集成整合了對中文搜索的有效支持以及對大快數據同步技術的支持後的高性能版本,DK.ES是DKhadoop的核心組件之一。
七、漢語言處理組件:大快的漢語言處理是目前國內使用率最高的開源天然語言處理開發包。
簡單的就介紹這些了吧,想要進一步瞭解的能夠搜索查詢下或者下載一下dkhadoop學習版本瞭解。如下是關於dkhadoop版本的問題:
DKH標準版 DKH-分佈式SQL版 DK.HADOOP發行版
DKH標準版有三個不一樣的子版本:用於開發調試的單機版;支持三節點的學習版;支持5節點以上的標準服務器版
DKH-分佈式SQL版有兩個子版本:學習版、服務器版數據庫

相關文章
相關標籤/搜索