Spark學習筆記

本文整理自《Spark快速大數據分析》,其中SparkSQL還沒學習,往後補上 第二章 Spark入門 RDD(彈性分佈式數據集)是Spark對分佈式數據和計算的基本抽象。 每一個Spark應用都有一個驅動器程序來發起集羣上的並行操做。驅動器程序包含應用的main函數,而且定義了集羣上的分佈式數據集,還對數據集應用了相關操做。驅動器程序通常要管理多個執行器。若是是本地模式下,則全部的工做都會在單個
相關文章
相關標籤/搜索