spark===RDD

時間 2021-01-09

原文原文鏈接

在spark的簡介中我們已經說過了，爲了讓spark的處理速度加快，其中有一個解決辦法就是引入了一個分佈式的彈性數據集--RDD 那什麼是RDD：RDD(Resilient Distributed Dataset）彈性數據集，是spark中的最基本的數據抽象，雖然說RDD是一個數據集，但是，它不存儲數據，他表示的是一個不可變的，可分區的元素並行計算的集合，允許用戶在執行多個查詢時將工作緩存到內存中