spark相關知識雜記

時間 2021-01-02

原文原文鏈接

工作中經常用到hadoop和spark的相關操作，大數據的知識點很多，想要全部掌握爛熟於心很困難，將一些比較重要或經常忘記的點記錄一下 1. saprk與hadoop的關係 hadoop是一個完善的大數據生態系統，包含了底層的文件系統HDFS，計算引擎MapReduce，大數據查詢引擎Hive，實時流計算storm，資源調度系統Yarn等，而spark主要是用來替換MR計算引擎的，利用內存計算替換