hadoop框架結構學習簡述

時間 2019-12-07

原文原文鏈接

近年，隨着互聯網的發展特別是移動互聯網的發展，數據的增加呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程序天天下載的網頁超過1億個（2000年數據，）數據的爆炸式增加直接推進了海量數據處理技術的發展。谷歌公司提出的大表、分佈式文件系統和分佈式計算的三大技術構架，解決了海量數據處理的問題。谷歌公司隨即將設計思路開源，發表了具備劃時代意義的三篇論文，很快根據谷歌設計思路的開源框架就出現了，就是現在很是火爆的hadoop、Maperduce和許多Nosql系統。這三大技術也是整個大數據技術的核心基礎。算法

目前國內的hadoop商業發行版也是比較多，這些hadoop商業版大部分都是由國外發行的，純國產的發行版不是不少，好比DKhadoop，能夠說是目前國內自主作hadoop商業版比較好的了。下面就以大快搜索DKhadoop爲例來給你們介紹一下hadoop框架結構！sql

圖示：DKhadoop技術技術架構圖數據庫

hadoop框架結構核心：編程

hadoop的框架結構最核心的設計就是：HDFS和MapReduce。HDFS爲海量的數據提供了存儲，MapReduce爲海量的數據提供了計算。服務器

大數據一體化開發框架：架構

大數據的應用開發過於偏向底層，設計技術面很是普遍，學習的難度天然要大的不少。對於新手入門更是難上加難。DKhadoop則是大快搜索將一系列技術框架在底層進行了從新封裝。把大數據開發中的一些通用的，重複使用的基礎代碼、算法封裝爲類庫，下降了大俗局的學習門檻，下降開發難度。框架

DKhadoop框架結構構成模塊：機器學習

咱們以DKhadoop發行版爲例：分佈式

一、框架由：數據源與SQL引擎、數據採集（自定義爬蟲）模塊、數據處理模塊、機器學習算法、天然語言處理模塊、搜索引擎模塊，六部分組成。oop

二、大快的大數據通用計算平臺（DKH），已經集成相同版本號的開發框架的所有組件。若是在開源大數據框架上部署大快的開發框架，須要平臺的組件支持以下：

（1）數據源與SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）數據採集：DK.hadoop

（3）數據處理模塊：DK.Hadoop、spark、storm、hive

（4）機器學習和AI：DK.Hadoop、spark

（5）NLP模塊：上傳服務器端JAR包，直接支持

（6）搜索引擎模塊：不獨立發佈

Dkhadoop是大快深度整合，從新編譯後的HADOOP發行版，可單獨發佈。獨立部署FreeRCH（大快大數據一體化開發框架）時，必需的組件。DK.HADOOP整合集成了NOSQL數據庫，簡化了文件系統與非關係數據庫之間的編程；DK.HADOOP改進了集羣同步系統，使得HADOOP的數據處理更加高效。

關於hadoop框架結構暫且簡單介紹這些，感興趣的朋友能夠找一下大快搜索的DKhadoop試一下。