分析挖掘（大數據）：hive、impala、 Spark MLlib概述、原理

時間 2019-12-07

標籤分析挖掘數據 hive impala spark mllib 概述原理欄目大數據简体版

原文原文鏈接

hive Hive是一個構建於Hadoop頂層的數據倉庫工具，支持大規模數據存儲、分析，具備良好的可擴展性。某種程度上能夠看做是用戶編程接口，自己不存儲和處理數據。依賴分佈式文件系統HDFS存儲數據，依賴分佈式並行計算模型MapReduce處理數據。算法定義了簡單的相似SQL 的查詢語言——HiveQL，用戶能夠經過編寫的HiveQL語句運行MapReduce任務，能夠很容易把原來構建在關係數據

>>阅读原文<<