【Spark亞太研究院系列叢書】Spark實戰高手之路-第一章 構建Spark集羣(第四步)(2)

第二步:使用Spark的cache機制觀察一下效率的提高

 

基於上面的內容,咱們在執行一下如下語句:web

發現一樣計算結果是15.緩存

此時咱們在進入Web控制檯:bash

發現控制檯中清晰展現咱們執行了兩次「count」操做。ide

如今咱們把「sparks」這個變量執行一下「cache」操做:工具

此時在執行count操做,查看Web控制檯:開發工具

此時發現咱們先後執行的三次count操做耗時分別是0.7s、0.3s、0.5s。idea

此時咱們 第四次執行count操做,看一下Web控制檯的效果:spa

控制檯上清晰的第四次操做僅僅花費了17ms,比前三次的操做速度大約快了30倍的樣子。這就是緩存帶來的巨大速度提高,而基於緩存是Spark的計算的核心之一!orm

 

第三步:構建Spark的IDE開發環境

 

Step 1:目前世界上Spark首選的InteIIiJ IDE開發工具是IDEA,咱們下載InteIIiJ IDEA:開發

這裏下載是最新版本Version 13.1.4:

關於版本的選擇,官方給出了以下選擇依據:

咱們在這裏選擇Linux系統下的」Community Edition FREE」這個版本,這能徹底知足咱們任意複雜程度的Scala開發需求。

家林下載完成後保存在本地的以下位置:

Step 2:安裝IDEA並配置IDEA系統環境變量

建立「/usr/local/idea」目錄:

把咱們下載的idea壓縮包解壓到該目錄下:

安裝完成後,爲了方便使用其bin目錄下的命令,咱們把它配置在「~/.bashrc」:

相關文章
相關標籤/搜索