[原] 深刻對比數據科學工具箱: SparkR vs Sparklyr

時間 2019-11-16

標籤深刻對比數據科學工具箱 sparkr sparklyr 简体版

原文原文鏈接

背景介紹

SparkR 和 Sparklyr 是兩個基於Spark的R語言接口，經過簡單的語法深度集成到R語言生態中。SparkR 由 Spark 社區維護，經過源碼級別更新SparkR的最新功能，最初從2016年夏天的1.5版本開始支持，從使用上很是像Spark Native。Sparklyr 由 RStudio 社區維護，經過深度集成 RStudio 的方式，提供更易於擴展和使用的方法，更強調統計特性與機器學習，實現本地與分佈式代碼的一致性，一般會比SparkR延遲1-2個版本，從使用上看接近於dplyr。html

總體對比

特性	SparkR	sparklyr
文檔	+ +	+ + +
安裝便利性	+	+ + +
數據IO	+ + +	+ + +
數據清洗	+ + +	+ + +
SQL	+ +	+ + +
機器學習	+ +	+ + +
深度學習	-	+ +
流式計算	+ + +	-
圖計算	-	+ +
分發R代碼	+ + +	+ + +

深度對比

文檔

二者文檔相對來講 Sparklyr 更加豐富一些，其中包含了業界/學界大量案例，但以中文版較少。SparkR 由第三方提供了中文版文檔。mysql

SparkR 文檔：http://spark.apachecn.org/doc...
Sparklyr 文檔：https://spark.rstudio.comios

安裝便利性

SparkR: 從官網下載,支持最新2.3版本。
Sparklyr: sparklyr::install_spark()，不依賴於Spark版本，spark 2.X 完美兼容1.X。截止2018年3月18日，目前暫不支持2.3版本。git

Spark初始化

SparkR:github

Sys.setenv("SPARKR_SUBMIT_ARGS"="--master yarn-client sparkr-shell")


sc <- SparkR::sparkR.session(enableHiveSupport = T,
                             sparkHome = "/data/FinanceR/Spark")

Sparklyr:sql

sc <- sparklyr::spark_connect(master = "yarn-client", spark_home = "/data/FinanceR/Spark", version = "2.2.0", config = sparklyr::spark_config())

數據IO

以寫Parquet文件爲例shell

SparkR:apache

df <- SparkR::as.DataFrame(faithful) 

SparkR::write.parquet(df,path= "/user/FinanceR",mode="overwrite",partition_by = "dt")

Sparklyr:json

df <- sparklyr::copy_to(sc,faithful,"df")
sparklyr::spark_write_parquet(df,path="/user/FinanceR",mode="overwrite",partition_by = "dt")

數據清洗

以統計計數爲例：bootstrap

SparkR

library(SparkR)
library(magrittr)

df %>%
mutate(a = df$b + 2) %>%
filter("a > 2")%>%
group_by("key")%>%
count()%>%
withColumn("count","cnt")%>%
orderBy("cnt",decrease = F)%>%
dropna() ->
pipeline

pipeline %>% persist("MEM_AND_DISK") # 大數據集 緩存在集羣上
pipeline %>% head() # 小數據 加載到本地

Sparklyr

library(sparklyr)
library(dplyr)

# 在 mutate 中支持 Hive UDF

df %>%
mutate(a = b+2) %>%
filter(a > 2)%>%
group_by(key)%>%
summarize(count = n())%>%
select(cnt = count)%>% 
order_by(cnt)%>%
arrange(desc(cnt))%>%
na.omit() ->
pipeline

pipeline %>% sdf_persist() # 大數據集 緩存在集羣上
pipeline %>% head() %>% collect() # 小數據 加載到本地

SQL

SparkR

df <- SparkR::sql('SELECT * FROM financer_tbl WHERE dt = "20180318"')

Sparklyr

全部操做幾乎和MySQL徹底同樣，學習成本≈0

df <- sc %>% 
      dplyr::tbl(dplyr::sql('SELECT * FROM financer_tbl WHERE dt = "20180318"'))

sc %>% DBI::dbGetQuery('SELECT * FROM financer_tbl WHERE dt = "20180318" limit 10') # 直接將數據 collect 到本地, 與操做MySQL徹底同樣
      
df %>% dbplyr::sql_render() # 將 pipeline 自動翻譯爲 SQL
# SELECT * FROM financer_tbl WHERE dt = "20180318"

分發R代碼

SparkR

#SparkR::dapply/SparkR::gapply/SparkR::lapply

func <- function(x){x + runif(1) } # 原生R代碼

SparkR::gapplyCollect(x = df, func = func,group = "key")

Sparklyr:

func <- function(x){x + runif(1) } # 原生 R代碼

sparklyr::spark_apply(x = df,packages=T,name = c("key","value"),func =func,group = "key")

SparkR 手動經過 spark.addFile 加載本地依賴，Sparklyr 自動將本地依賴分發到集羣上

流式計算

SparkR

stream <- SparkR::read.stream(source = "kafka",
                 "kafka.bootstrap.servers" = "a1.financer.com:9092,a2.financer.com:9092",
                                           "subscribe" =  "binlog.financer.financer")

stream %>%
  SparkR::selectExpr( "CAST(key AS STRING)", "CAST(value AS STRING)") %>%
  SparkR::selectExpr("get_json_object(value,'$.data') as data") %>% 
  SparkR::selectExpr("get_json_object(data,'$.ORDERID') as orderid"
             ,"get_json_object(data,'$.USERID') as userid"
             ,"get_json_object(data,'$.TS') as ts"
             ) %>% 
  SparkR::withWatermark("ts", "5 minutes") %>% 
  SparkR::createOrReplaceTempView("financer")

"
 select userid,window.start as ts,count(1) as cnt
 from financer 
 group by userid, window(ts, '5 seconds')
" %>% 
SparkR::sql() %>% 
  SparkR::write.stream("console",outputMode = "complete") ->
  query

Sparklyr 暫時不支持流式計算，功能開發中

圖計算

SparkR 不直接支持 Graph Mining，具體實現經過GraphX來實現
Sparklyr 經過拓展程序，graphframes 實現圖挖掘，好比Pagerank、LPA等

library(graphframes)
# copy highschool dataset to spark
highschool_tbl <- copy_to(sc, ggraph::highschool, "highschool")

# create a table with unique vertices using dplyr
vertices_tbl <- sdf_bind_rows(
  highschool_tbl %>% distinct(from) %>% transmute(id = from),
  highschool_tbl %>% distinct(to) %>% transmute(id = to)
)

# create a table with <source, destination> edges
edges_tbl <- highschool_tbl %>% transmute(src = from, dst = to)

gf_graphframe(vertices_tbl, edges_tbl) %>%
  gf_pagerank(reset_prob = 0.15, max_iter = 10L, source_id = "1")

深度學習

SparkR 不直接支持 Deep Learning
Sparklyr 經過拓展程序 Rsparkling 實現深度學習，好比 Anto-Encoder

總結

目前，SparkR 僅在實時計算上領先於 Sparklyr，在圖計算、機器學習、深度學習等領域已經被拉開差距，在大多數場景下，Sparklyr將是一個更好的選擇，在不久的未來，Sparklyr也將集成Streaming模塊，屆時將全面覆蓋SparkR功能。

相比於 pandas 和 pyspark，R 和 SparkR 的差別更小，而且若是你已經掌握了 dplyr 操做 mysql 的方法，學習 Sparklyr 將變得十分容易，由於他們共用同一套數據處理的語法，使用spark幾乎只有參數配置的學習成本，更多 Sparklyr教程可見 spark.rstudio.com 以及 Sparklyr 使用手冊:https://github.com/rstudio/ch... 。

參考資料

做爲分享主義者(sharism)，本人全部互聯網發佈的圖文均聽從CC版權，轉載請保留做者信息並註明做者 Harry Zhu 的 FinanceR專欄: https://segmentfault.com/blog...，若是涉及源代碼請註明GitHub地址： https://github.com/harryprince。微信號: harryzhustudio 商業使用請聯繫做者。