Spark入門必讀:核心概念介紹及常用RDD操作

導讀:Spark是由加州大學伯克利分校AMP實驗室開源的分佈式大規模數據處理通用引擎,具有高吞吐、低延時、通用易擴展、高容錯等特點。Spark內部提供了豐富的開發庫,集成了數據分析引擎Spark SQL、圖計算框架GraphX、機器學習庫MLlib、流計算引擎Spark Streaming。 Spark在函數式編程語言Scala中實現,提供了豐富的開發API,支持Scala、Java、Python
相關文章
相關標籤/搜索