基於Spark DataFrame的數據倉庫框架

數據存儲的多樣性,對數據分析、挖掘帶來衆多不變。應用瓶頸表如今兩個方面:mysql 1.      傳統數據庫mysql等的數據處理能力有限,隨着數據量的增長,join、groupby、orderby等操做出現速度極慢,甚至將機器資源耗盡、不能運行的狀況;另外一方面,將數據存儲轉移到分佈式系統好比hdfs的代價太大。sql 2.      不能進行跨數據源的訪問。好比對hive table、hta
相關文章
相關標籤/搜索