[大數據]連載No6之Spark(RDD特性,算子)+第一行代碼Hello WordCount

本次總結圖如下 什麼是spark? 1:快速的通用引擎,處理大規模數據 2:開源分佈式計算框架,使數據分析更加快速 3:不但分析程序快速,寫程序也快速 Spark RDD(Resilient distributed Dataset) 彈性的分佈式數據集 5大特性 1)有一系類分區集合組成 (a list of partitions) 個人理解:計算的數據到達T級別以上時,hadoop會將這些數據切
相關文章
相關標籤/搜索