基於Spark DataFrame的數據倉庫框架

時間 2019-12-06

原文原文鏈接

數據存儲的多樣性，對數據分析、挖掘帶來衆多不變。應用瓶頸表如今兩個方面：mysql 1. 傳統數據庫mysql等的數據處理能力有限，隨着數據量的增長，join、groupby、orderby等操做出現速度極慢，甚至將機器資源耗盡、不能運行的狀況；另外一方面，將數據存儲轉移到分佈式系統好比hdfs的代價太大。sql 2. 不能進行跨數據源的訪問。好比對hive table、hta

>>阅读原文<<