spark學習筆記3

Spark 支持在集羣範圍內將數據集緩存至每一個節點的內存中,可避免數據傳輸,當數據需要重複訪問時這個特徵非常有用,例如查詢體積小的「熱」數據集,或是運行如 PageRank 的迭代算法。調用 cache(),就可以將數據集進行緩存: Spark SQL和 DataFrame可以用於處理結構化數據。   ===================================== 請注意, 在 Sp
相關文章
相關標籤/搜索