Hadoop學習：

時間 2019-12-11

標籤 hadoop 學習欄目 Hadoop 简体版

原文原文鏈接

文件名稱            格式               描述
hadoop-env.sh      BaSh              腳本 記 錄 腳 本 要 用 的 環 境 變 , 以 運 行Hadoop
core-site.xml      HadooP配XML    Hadoop Core的配項,例如 HDFS 和MapReduce 經常使用 的 I/o 設置等
hdfs-site.xml      Hadoop配置XML  Hadoop守護進程的配置項,包括namenode、輔助namenode和datanode等
mapred-site.xml    HadooP配置XML  MaPReduce守護進程的配項,包括jobtracker和tasktracker
masters            純文本         運?輔助namenode的機器列表(每行?個)
slaves             純文本         運?datanode和tasktracker的機器列 表
hadoop-metrics.properties Java屬性 控制 metrics 在 Hadoop 上如何發佈的屬性
log4j.properties Java屬性         系統日誌文件、namenode審計日誌、taSktracker?進程的任務日誌的屬性

Hive:是一個構建在Hadoop 上的數據倉庫框架,MapReduce (輸入hive啓動shell)
metastore:是Hive元數據的集中存放地
HBase:是一個在HDFS上開發的面向列的分佈式nosql數據庫(輸入hbase shell啓動shell)
HBase 提供Avro,REST,Thrift接口
一、hive是sql語言，經過數據庫的方式來操做hdfs文件系統，爲了簡化編程，底層計算方式爲mapreduce。
二、hive是面向行存儲的數據庫。
三、Hive自己不存儲和計算數據，它徹底依賴於HDFS和MapReduce，Hive中的表純邏輯。
四、HBase爲查詢而生的，它經過組織起節點內全部機器的內存，提供一個超大的內存Hash表
五、hbase不是關係型數據庫，而是一個在hdfs上開發的面向列的分佈式數據庫，不支持sql。
六、hbase是物理表，不是邏輯表，提供一個超大的內存hash表，搜索引擎經過它來存儲索引，方便查詢操做。
七、hbase是列存儲。
Hive和Hbase有各自不一樣的特徵：hive是高延遲、結構化和麪向分析的，hbase是低延遲、非結構化和麪向編程的。Hive數據倉庫在hadoop上是高延遲的。
那麼，hive是什麼？
白話一點再加不嚴格一點，hive能夠認爲是map-reduce的一個包裝。hive的意義就是把好寫的hive的sql轉換爲複雜難寫的map-reduce程序。
因而，hbase是什麼？
一樣白話一點加不嚴格一點，hbase能夠認爲是hdfs的一個包裝。他的本質是數據存儲，是個NoSql數據庫；hbase部署於hdfs之上，而且克服了hdfs在隨機讀寫方面的缺點。html

MapReduce是一種可用於數據處理的編程模型,優點在於處理大規模的數據集。
MapReduce任務分爲Map階段和Reduce階段，每一個階段都有鍵值對做爲輸入輸出。
map函數的輸出經由MapReduce框架處理後最後發送到redeuce函數，這一過程當中須要根據鍵值排序和分組node

1.查看Hadoop的版本：hadoop -version
2.查看hive版本沒有好辦法，能夠去hive目錄下的lib文件夾下查看jar包的版本
3.查看hbase版本方法:直接用hbase shell命令進入shell的時候就會顯示版本號進入shell後git

TBLS 全部hive表的基本信息,記錄和存儲hive table的建立時間，名稱，類型等信息。 TBL_ID,SD_ID
TABLE_PARAM 表級屬性，如是否外部表，表註釋等 TBL_ID
COLUMNS Hive表字段信息(字段註釋，字段名，字段類型，字段序號) SD_ID
SDS 全部hive表、表分區所對應的hdfs數據目錄和數據格式存儲hive table以及hive partitioner table的InputFormat以及OutputFormat等信息 SD_ID,SERDE_ID
SERDE_PARAM 序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等,存儲和表述hive table的序列化/反序列化方式 SERDE_ID
PARTITIONS Hive表分區信息 PART_ID,SD_ID,TBL_ID
PARTITION_KEYS Hive分區表分區鍵,hive partitioner table的分區鍵名稱 TBL_ID
PARTITION_KEY_VALS Hive表分區名(鍵值) PART_ID
Db_privs:記錄了User/Role在DB上的權限
Tbl_privs:記錄了User/Role在table上的權限
Tbl_col_privs：記錄了User/Role在table column上的權限
Roles：記錄了全部建立的role
Role_map：記錄了User與Role的對應關係github

Spark: 一個基於 SCa1a API 的分佈式數據集的分佈式計算框架。其可使用 HDFS 文件, 並且其對於 MapReduCe 中多種計算能夠提供顯著的性能改進。同時還有一個將 HiVe 指向Spark 的項目, 稱做 Sharksql

Storm: 一個實時事件流處理系統shell

kafka: 一個分佈式的發佈-訂閱消息傳遞系統數據庫

在Hadoop-2.2.0及以上版本中，因爲再也不有JobTracker以及TaskTracker的概念和角色（已經替換成ResourceManager和NodeManager）因此在這些版本中已經再也不存在 mapred.tasktracker.map.tasks.maximum 和mapred.tasktracker.reduce.tasks.maximum 這兩個屬性apache

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。