大數據技術學習之Spark技術總結

Spark是基於內存的迭代計算框架,適用於需要多次操作特定數據集的應用場合。需要反覆操作的次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密集度較大的場合,受益就相對較小(大數據庫架構中這是是否考慮使用Spark的重要因素)。   1、Spark的核心是什麼?   RDD是Spark的基本抽象,是對分佈式內存的抽象使用,實現了以操作本地集合的方式來操作分佈式數據集的抽象實現。RDD也是S
相關文章
相關標籤/搜索