1.大數據的概述node
大數據:巨量數據、海量數據,首先在數據的量上達到必定的規模,首先是人或者計算機在不合理時間內是不可以實現的數據量。linux
2.特色:數據量比較大,數據類型多樣化、處理速度問題網絡
3.大數據平臺分爲硬件和軟件框架
4.hadoop出現:數據的不斷加大,單機的計算機沒法在硬盤、網絡IO,計算機的CPU,內存存儲上是沒法達到的狀況下出現的一種處理方式。異步
5.hadoop是Apache基金會所開發的分佈式的基本跨架,能夠在不瞭解分佈式的狀況下開發分佈式的程序,充分的利用集羣的高速運算和存儲。分佈式
6.解決的問題:大數據存儲大,數據分析是hadoop的兩大核心,HDFS和mapreduceoop
7.HDFS:可擴展、容錯、高性能的分佈式文件管理文件系統,異步開發一次開發屢次使用,主要用於存儲。性能
8.mapreduce爲分佈式的計算框架,主要包含map和reduce過程複雜對HDFS中的數據進行計算。大數據
9.hadoop的優勢:高可靠性、高性能、高擴展性、高效性、容錯性、低成本。spa
HDFS
1.hdfs是一個分佈式的文件系統,能夠進行建立、刪除、移動、重命名文件或者文件夾與linux的文件系統相似。
2.它由多個節點組成:nameNode(一個)、DataNode(多個)
nameNode :只有一個,用於nebula提供元數據的服務,
secondary Namenode:名稱節點,幫助節點用與整合和恢復
DataNode:他爲hdfs提供真正的存儲。
注意:在hadoop中nameNode只有一個,在hadoop2.X以後,有了很大的改善
3.存儲文檔在HDFS中。被分割成塊,而後這些塊以流的方式複製到各個節點,存儲在不一樣的機架上,默認塊的大小是128MB,備份的數目,這是能夠用客戶設置的。內部使用網絡通訊
4.NameNode經過在HDFS機架中單獨機架上運行,負責文件系統的客戶端請求。