近年,隨着互聯網的發展特別是移動互聯網的發展,數據的增加呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程序天天下載的網頁超過1億個(2000年數據,)數據的爆炸式增加直接推進了海量數據處理技術的發展。谷歌公司提出的大表、分佈式文件系統和分佈式計算的三大技術構架,解決了海量數據處理的問題。谷歌公司隨即將設計思路開源,發表了具備劃時代意義的三篇論文,很快根據谷歌設計思路的開源框架就出現了,就是現在很是火爆的hadoop、Maperduce和許多Nosql系統。這三大技術也是整個大數據技術的核心基礎。算法
目前國內的hadoop商業發行版也是比較多,這些hadoop商業版大部分都是由國外發行的,純國產的發行版不是不少,好比DKhadoop,能夠說是目前國內自主作hadoop商業版比較好的了。下面就以大快搜索DKhadoop爲例來給你們介紹一下hadoop框架結構!sql
圖示:DKhadoop技術技術架構圖數據庫
hadoop框架結構核心:編程
hadoop的框架結構最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,MapReduce爲海量的數據提供了計算。服務器
大數據一體化開發框架:架構
大數據的應用開發過於偏向底層,設計技術面很是普遍,學習的難度天然要大的不少。對於新手入門更是難上加難。DKhadoop則是大快搜索將一系列技術框架在底層進行了從新封裝。把大數據開發中的一些通用的,重複使用的基礎代碼、算法封裝爲類庫,下降了大俗局的學習門檻,下降開發難度。框架
DKhadoop框架結構構成模塊:機器學習
咱們以DKhadoop發行版爲例:分佈式
一、框架由:數據源與SQL引擎、數據採集(自定義爬蟲)模塊、數據處理模塊、機器學習算法、天然語言處理模塊、搜索引擎模塊,六部分組成。oop
二、大快的大數據通用計算平臺(DKH),已經集成相同版本號的開發框架的所有組件。若是在開源大數據框架上部署大快的開發框架,須要平臺的組件支持以下:
(1)數據源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)數據採集:DK.hadoop
(3)數據處理模塊:DK.Hadoop、spark、storm、hive
(4)機器學習和AI:DK.Hadoop、spark
(5)NLP模塊:上傳服務器端JAR包,直接支持
(6)搜索引擎模塊:不獨立發佈
Dkhadoop是大快深度整合,從新編譯後的HADOOP發行版,可單獨發佈。獨立部署FreeRCH(大快大數據一體化開發框架)時,必需的組件。DK.HADOOP整合集成了NOSQL數據庫,簡化了文件系統與非關係數據庫之間的編程;DK.HADOOP改進了集羣同步系統,使得HADOOP的數據處理更加高效。
關於hadoop框架結構暫且簡單介紹這些,感興趣的朋友能夠找一下大快搜索的DKhadoop試一下。