初識hadoop

時間 2019-11-24

標籤 hadoop 欄目 Hadoop 简体版

原文原文鏈接

網格計算經過利用大量異構計算機（一般爲臺式機）的未用資源（CPU週期和磁盤存儲），將其做爲嵌入在分佈式電信基礎設施中的一個虛擬的計算機集羣，爲解決大規模的計算問題提供一個模型。html

志願計算：web

捐獻CPU週期shell

job tracker 的任務是追蹤mapreduce 做業數據庫

SEARCH 組成部分編程

crawler：下載網頁，webmap 構建網絡地圖安全

indexer ：爲最佳界面構建反向索引網絡

hadoop技術棧：數據結構

序列化：框架

將結構化的對象轉爲字節流ssh

用於進程間的通訊和持久存儲；

什麼是序列化？序列化就是將數據結構或對象轉換成二進制串的過程，也就是編碼的過程。

什麼是反序列化？將在序列化過程當中所生成的二進制串轉換成數據結構或者對象的過程。

爲何須要序列化？轉換爲二進制串後纔好進行網絡傳輸嘛！

爲何須要反序列化？將二進制轉換爲對象纔好進行後續處理！

從RPC的角度上看，主要看三點：1）通用性，好比是否能支持Map等複雜的數據結構；2）性能，包括時間複雜度和空間複雜度，因爲RPC框架將會被公司幾乎全部服務使用，若是序列化上能節約一點時間，對整個公司的收益都將很是可觀，同理若是序列化上能節約一點內存，網絡帶寬也能省下很多；3）可擴展性，對互聯網公司而言，業務變化飛快，若是序列化協議具備良好的可擴展性，支持自動增長新的業務字段，而不影響老的服務，這將大大提供系統的靈活度。

RPC（Remote Procedure Call Protocol）：http://www.cnblogs.com/LBSer/p/4853234.html

core ：一系列分佈式文件系統和通用I/O組件和接口（序列化，JAVA RPC,持久化數據結構）

ARvo ：一種高效跨語言 rpc 數據序列系統，持久化數據存儲

mapreduce ：分佈式數據處理模式和執行環境，大型商用機集羣

HDFS : 分佈式文件系統

Pig ：一種數據流語言和運行環境，檢索很是大的數據集。pig 運行在 mapreduce 和 Hdfs上

Hbase ：一個分佈式的列存儲的數據庫，Hbase 使用hdfs做爲底層存儲，支持mapreduce批量式計算和點查詢（隨機讀取）

Zookeeper ：一個分佈式的高可用性的協調服務，提供分佈式鎖的服務用於構建分佈式應用

Hive : 分佈式數據倉庫，管理hdfs中存儲的數據，並提供SQL查詢

Chukwa ：分佈式數據收集和分析系統，運行hdfs中的存儲數據的收集器，使用mapreduce生成報告

shell編程 awk

Map reduce邏輯數據流 shuffle「洗牌」