理解Spark RDD

RDD是Spark中的一個很基礎,很核心的概念,其全稱是彈性分佈式數據集,這是一種全新的數據抽象模型。在Spark中處理數據,不管是用BDAS(伯克利數據分析棧)中的哪個數據分析模型,最終都會將數據轉化成基礎的RDDs,將經過各類API定義的操做,解析成對於基礎的RDD操做。這樣一來經過一個底層的Spark執行引擎就能夠知足各類計算模式。這也是Spark設計團隊提出「one thing to ru
相關文章
相關標籤/搜索