haoop的相關介紹及概念

時間 2021-04-19

標籤 java node linux nginx 數據庫 apache 安全服務器網絡架構欄目 Java 简体版

原文原文鏈接

文章目錄
java

- 分佈式存儲：
- 命名空間
- 主從節點：
- Block
- 容災
- 前言
- hadoop介紹
- Hadoop的集羣優勢：
- 關於hadoop的相關概念：

前言

cluster:集羣node

LB：負載均衡
LVS SLB HAPROXY,nginxlinux

HA:高可用
MHA，keepalived，hearebeatnginx

HPC:
Hadoop:
大批量的計算輔助存儲和運算
什麼是分佈式：分散的數據庫

hadoop介紹

Hadoop 是 Lucene 創始人 Doug Cutting，根據 Google 的相關內容山寨出來的分佈式文件系統和對海量數據進行分析計算的基礎框架系統，其中包含 MapReduce 程序，hdfs 系統等！[它受到最早由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啓發。]apache

Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特色，而且設計用來部署在低廉的（low-cost）硬件上；並且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有着超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，能夠以流的形式訪問（streaming access）文件系統中的數據。安全

Hadoop的框架最核心的設計： HDFS 和mapreduce
HDFS: 爲海量數據提供存儲
MapReduce: 爲海量數據提供了計算服務器

Hadoop的集羣優勢：

Hadoop是一個可以對大量數據進行分佈式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。
Hadoop 是可靠的，由於它假設計算元素和存儲會失敗，所以它維護多個工做數據副本，確保可以針對失敗的節點從新分佈處理。
Hadoop 是高效的，由於它以並行的方式工做，經過並行處理加快處理速度
Hadoop 仍是可伸縮的，可以處理 PB 級數據。網絡

PB級別的數據換算成G？
IPB=1024TB
1TB=1024G架構

Hadoop 依賴於社區服務，所以它的成本比較低，任何人均可以使用。

Hadoop是一個可以讓用戶輕鬆架構和使用的分佈式計算平臺。用戶能夠輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有如下幾個優勢：

高可靠性： hadoop 按位存儲和處理數據的能力值得人們信賴
高擴展性：節點比較多，方便計算和分配數據。

什麼是節點？
節點是一個術語,代指一類設備.他們能夠是主機（pc）,服務器,也能夠是構成傳輸網絡的交換機,路由器,防火牆等等.

高效性： Hadoop可以在節點之間動態地移動數據，並保證各個節點的動態平衡，所以處理速度很是快。
容錯性：Hadoop可以自動保存數據的多個副本，而且可以自動將失敗的任務從新分配。

raid 容錯性是什麼意思，raid幾沒有容錯性？ raid 幾有容錯性。

低成本：與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本所以會大大下降
注意： hadoop框架開發語言： java，在linux上運行效果比較理想。

官網： http://hadoop.apache.org/

關於hadoop的相關概念：

分佈式存儲：

linux存儲有哪些？
NFS, NAS, HDFS,MFS

單一服務器存儲幾個TB：裝不下
舉例: 電信公司：陽光保險：存儲（通話記錄），存了20臺服務器，一臺一臺的讀取或者寫入數據很麻煩。
引入分佈式文件系統：

分佈式文件系統管理的是一個服務器集羣。在這個集羣中，數據存儲在集羣的節點（即集羣中的服務器）中，可是該文件系統把服務器的差別屏蔽了。那麼，咱們就能夠像使用普通的文件系統同樣使用，可是數據卻分散在不一樣的服務器中。

命名空間

namespace:在分佈式存儲系統中，分散在不一樣節點中的數據可能屬於同一個文件，爲了組織衆多的文件，把文件能夠放到不一樣的文件夾中，文件夾能夠一級一級的包含。咱們把這種組織形式稱爲命名空間（namespace）。命名空間管理着整個服務器集羣中的全部文件。命名空間的職責與存儲真實數據的職責是不同的。負責命名空間職責的節點稱爲主節點（master node），負責存儲真實數據職責的節點稱爲從節點（slave node）