最近面試,發現不少公司在使用hive對數據進行處理。
hive是hadoop家族成員,是一種解析like sql語句的框架。它封裝了經常使用MapReduce任務,讓你像執行sql同樣操做存儲在HDFS的表。
hive的表分爲兩種,內表和外表。
Hive 建立內部表時,會將數據移動到數據倉庫指向的路徑;若建立外部表,僅記錄數據所在的路徑,不對數據的位置作任何改變。
在刪除表的時候,內部表的元數據和數據會被一塊兒刪除, 而外部表只刪除元數據,不刪除數據。這樣外部表相對來講更加安全些,數據組織也更加靈活,方便共享源數據。
Hive的內外表,還有一個Partition的分區的知識點,用於避免全表掃描,快速檢索。後期的文章會提到。 php
http://www.maoxiangyi.cn/index.php/archives/294
面試