分析挖掘(大數據):hive、impala、 Spark MLlib概述、原理

hive Hive是一個構建於Hadoop頂層的數據倉庫工具,支持大規模數據存儲、分析,具備良好的可擴展性。某種程度上能夠看做是用戶編程接口,自己不存儲和處理數據。依賴分佈式文件系統HDFS存儲數據,依賴分佈式並行計算模型MapReduce處理數據。算法 定義了簡單的相似SQL 的查詢語言——HiveQL,用戶能夠經過編寫的HiveQL語句運行MapReduce任務,能夠很容易把原來構建在關係數據
相關文章
相關標籤/搜索