[譯]大數據分析平臺搭建教程:基於Apache Zeppelin Notebook和R的交互式數據科學

介紹

這篇文章的目的是幫助您開始使用 Apache Zeppelin Notebook,它能夠知足您用R作數據科學的需求。Zeppelin 是一個提供交互數據分析且基於Web的筆記本。方便你作出可數據驅動的、可交互且可協做的精美文檔,而且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。git

然而,最新的官方版本是0.5.0,還不支持R編程語言。幸運的是,NFLabs公司作了個開源項目,讓我提供了一個R的編譯器。這個編譯器是讓用戶可使用自定義的語言作爲數據處理後端的一個 Zeppelin 插件。例如在 Zeppelin 使用scala代碼,您須要一個 Spark編譯器。因此,若是你像我同樣有足夠的耐心將R集成到Zeppelin中, 這個教程將告訴你怎樣從源碼開始配置 Zeppelin和R。github

準備工做

  • 咱們將經過Bash shell在Linux上安裝Zeppelin。若是您使用的是Windows操做系統,我建議您安裝和使用Cygwin終端(它提供功能相似於Windows上的Linux發行版)。web

  • 確保 Java 1.7 和 Maven 3.2.x 是已經安裝而且配置到環境變量中。docker

從源代碼構建 Zeppelin

第一步:下載 Zeppelin 源代碼

去這github分支下載源代碼,將這個連接複製並粘貼到你的瀏覽器:https://github.com/elbamos/incubator-zeppelin/tree/rinterpretershell

在個人例子中我已經下載並解壓文件夾在個人桌面apache

第二步:構建 Zeppelin

假設你是安裝在單機,打開你的Terminal,運行下面的代碼。若是你是安裝在一個集羣,會稍微複雜一點,具體步驟 Zeppelin 的文檔中找到。編程

$ cd Desktop/Apache/incubator-zeppelin-rinterpreter
$ mvn clean package -DskipTests

這將須要約16分鐘構建Zeppelin、Spark,全部引擎包括R,markdown,shell,hive等。(見下圖)。segmentfault

第三步:啓動 Zeppelin

運行如下命令啓動Zeppelin:後端

$ ./bin/zeppelin-daemon.sh start


打開web瀏覽器,訪問http://localhost:8080。此時,您已經準備好開始在 Zeppelin 用代碼建立交互筆記本。瀏覽器

交互式數據科學

第一步:建立一個筆記本

單擊下拉箭頭旁邊的「筆記本」頁面,點擊「建立新報告」。

給你的筆記本命名或您可使用指定的缺省名稱。我命名爲「Base R in Apache Zeppelin」。

第二步:開始你的分析

以下圖所示,調用R能夠用「%spark.r」或「%spark.knitr」標籤。首先讓咱們用 markdown 寫一些介紹。

根據咱們可能須要咱們的分析,如今讓咱們來安裝一些包。

咱們將使用「flights」數據集顯示2013年離開紐約的航班,如今讓咱們讀取數據集。

如今,讓咱們使用dplyr(用管道符)作一些數據操做。

您還可使用條形圖和餅圖來可視化一些描述性統計數據。

如今,讓咱們與ggplot2共舞。

如今,讓咱們用caret包作一些統計的機器學習。

最後,繪製幾個地圖。

結束語

Zeppelin 幫助您使用多種編程語言建立交互式文檔和美麗的圖表。這篇文章的目的是幫助你配置 Zeppelin 和 R。但願這牛逼的的項目管理委員會(PMC)的開源項目能夠用R引擎發佈下一個版本。到時候安裝 Zeppelin確定會更快更方便,而沒必要從源代碼構建。

還值得一提的是,還有另外一個R的編譯器是由 Data Layer 提供的。你能夠在這裏找到說明如何使用:https://github.com/datalayer/zeppelin-R

你能夠嘗試着兩個編譯器,而後而後在下面的評論區分享一下你的使用體驗。

Data Layer提供的編譯器

RCharts

Rchats Map

GoogleViz

Scala R Binding

R Scala Dataframe Binding

SparkR

用Docker鏡像部署

爲了您的方便, Datalayer 爲Apache Zeppelin 提供了一個最新的 Docker鏡像。你能夠經過執行下面的命令來獲取鏡像

docker pull datalayer/zeppelin-rscala

Run the Zeppelin notebook with:

docker run -it -p 2222:22 -p 8080:8080 -p 4040:4040 datalayer/zeppelin-rscala

如今,你能夠去http://localhost:8080測試這個R教程筆記了。

展望

做爲後續這篇文章中,咱們將看到在 Zeppelin 中如何使用 Apache Spark(尤爲是SparkR)。

更新

此小節因爲原文有可能變更,故不做翻譯,望讀者原諒,能夠直接訪問原文查看最新的更新狀況。

本文已得到原做者:Daniel Emaasit 受權,並由 HarryZhu 翻譯。
【原文地址】:http://blog.sparkiq-labs.com/2015/11/16/interactive-data-science-with-r-in-apache-zeppelin-notebook/

做爲分享主義者(sharism),本人全部互聯網發佈的圖文均聽從CC版權,轉載請保留做者信息並註明做者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog/harryprince,若是涉及源代碼請註明GitHub地址:https://github.com/harryprince。微信號: harryzhustudio商業使用請聯繫做者。

相關文章
相關標籤/搜索