基於Kubernetes的Spark集羣部署實踐

Spark是新一代分佈式內存計算框架,Apache開源的頂級項目。相比於Hadoop Map-Reduce計算框架,Spark將中間計算結果保留在內存中,速度提高10~100倍;同時它還提供更豐富的算子,採用彈性分佈式數據集(RDD)實現迭代計算,更好地適用於數據挖掘、機器學習算法,極大提高開發效率。node     Docker是輕量級虛擬化容器技術,具備輕便性、隔離性、一致性等特色,能夠極大簡
相關文章
相關標籤/搜索