Hadoop學習:

文件名稱            格式               描述
hadoop-env.sh      BaSh              腳本 記 錄 腳 本 要 用 的 環 境 變 , 以 運 行Hadoop
core-site.xml      HadooP配XML    Hadoop Core的配項,例如 HDFS 和MapReduce 經常使用 的 I/o 設置等
hdfs-site.xml      Hadoop配置XML  Hadoop守護進程的配置項,包括namenode、輔助namenode和datanode等
mapred-site.xml    HadooP配置XML  MaPReduce守護進程的配項,包括jobtracker和tasktracker
masters            純文本         運?輔助namenode的機器列表(每行?個)
slaves             純文本         運?datanode和tasktracker的機器列 表
hadoop-metrics.properties Java屬性 控制 metrics 在 Hadoop 上如何發佈的屬性
log4j.properties Java屬性         系統日誌文件、namenode審計日誌、taSktracker?進程的任務日誌的屬性

 

Hive:是一個構建在Hadoop 上的數據倉庫框架,MapReduce (輸入hive啓動shell)
metastore:是Hive元數據的集中存放地
HBase:是一個在HDFS上開發的面向列的分佈式nosql數據庫(輸入hbase shell啓動shell)
HBase 提供Avro,REST,Thrift接口
一、hive是sql語言,經過數據庫的方式來操做hdfs文件系統,爲了簡化編程,底層計算方式爲mapreduce。
二、hive是面向行存儲的數據庫。
三、Hive自己不存儲和計算數據,它徹底依賴於HDFS和MapReduce,Hive中的表純邏輯。
四、HBase爲查詢而生的,它經過組織起節點內全部機器的內存,提供一個超大的內存Hash表
五、hbase不是關係型數據庫,而是一個在hdfs上開發的面向列的分佈式數據庫,不支持sql。
六、hbase是物理表,不是邏輯表,提供一個超大的內存hash表,搜索引擎經過它來存儲索引,方便查詢操做。
七、hbase是列存儲。
Hive和Hbase有各自不一樣的特徵:hive是高延遲、結構化和麪向分析的,hbase是低延遲、非結構化和麪向編程的。Hive數據倉庫在hadoop上是高延遲的。
那麼,hive是什麼?
白話一點再加不嚴格一點,hive能夠認爲是map-reduce的一個包裝。hive的意義就是把好寫的hive的sql轉換爲複雜難寫的map-reduce程序。
因而,hbase是什麼?
一樣白話一點加不嚴格一點,hbase能夠認爲是hdfs的一個包裝。他的本質是數據存儲,是個NoSql數據庫;hbase部署於hdfs之上,而且克服了hdfs在隨機讀寫方面的缺點。html

MapReduce是一種可用於數據處理的編程模型,優點在於處理大規模的數據集。
MapReduce任務分爲Map階段和Reduce階段,每一個階段都有鍵值對做爲輸入輸出。
map函數的輸出經由MapReduce框架處理後最後發送到redeuce函數,這一過程當中須要根據鍵值排序和分組node

1.查看Hadoop的版本:hadoop -version
2.查看hive版本沒有好辦法,能夠去hive目錄下的lib文件夾下查看jar包的版本
3.查看hbase版本方法:直接用hbase shell命令進入shell的時候就會顯示版本號進入shell後git

 


TBLS 全部hive表的基本信息,記錄和存儲hive table的建立時間,名稱,類型等信息。 TBL_ID,SD_ID
TABLE_PARAM 表級屬性,如是否外部表,表註釋等 TBL_ID
COLUMNS Hive表字段信息(字段註釋,字段名,字段類型,字段序號) SD_ID
SDS 全部hive表、表分區所對應的hdfs數據目錄和數據格式存儲hive table以及hive partitioner table的InputFormat以及OutputFormat等信息 SD_ID,SERDE_ID
SERDE_PARAM 序列化反序列化信息,如行分隔符、列分隔符、NULL的表示字符等,存儲和表述hive table的序列化/反序列化方式 SERDE_ID
PARTITIONS Hive表分區信息 PART_ID,SD_ID,TBL_ID
PARTITION_KEYS Hive分區表分區鍵,hive partitioner table的分區鍵名稱 TBL_ID
PARTITION_KEY_VALS Hive表分區名(鍵值) PART_ID
Db_privs:記錄了User/Role在DB上的權限
Tbl_privs:記錄了User/Role在table上的權限
Tbl_col_privs:記錄了User/Role在table column上的權限
Roles:記錄了全部建立的role
Role_map:記錄了User與Role的對應關係github

Spark: 一個基於 SCa1a API 的分佈式數據集的分佈式計算框架。 其可使用 HDFS 文件, 並且其對於 MapReduCe 中多種計算能夠提供顯著的性能改進。 同時還有一個將 HiVe 指向Spark 的項目, 稱做 Sharksql

Storm: 一個實時事件流處理系統shell

kafka: 一個分佈式 的發佈-訂閱消息傳遞系統數據庫

 在Hadoop-2.2.0及以上版本中,因爲再也不有JobTracker以及TaskTracker的概念和角色(已經替換成ResourceManager和NodeManager)因此在這些版本中已經再也不存在 mapred.tasktracker.map.tasks.maximum 和mapred.tasktracker.reduce.tasks.maximum 這兩個屬性apache

相關文章
相關標籤/搜索