並行框架學習1:Pyspark介紹及安裝(基於Python)

  Apache Spark 是一個開源集羣運算框架,最初是由加州大學柏克萊分校 AMPLab 所開發。相對於 Hadoop 的 MapReduce 會在運行完工作後將中介數據存放到磁盤中,Spark 使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算。Spark 在存儲器內運行程序的運算速度能做到比 Hadoop MapReduce 的運算速度快上 100 倍,即便是運行程序於硬
相關文章
相關標籤/搜索