Apache Spark 2.2.0新特性介紹（轉載）

時間 2019-11-06

標籤 apache spark 2.2.0 特性介紹轉載欄目 Apache 简体版

原文原文鏈接

這個版本是 Structured Streaming 的一個重要里程碑，由於其終於能夠正式在生產環境中使用，實驗標籤（experimental tag）已經被移除。在流系統中支持對任意狀態進行操做；Apache Kafka 0.10 的 streaming 和 batch API支持讀和寫操做。除了在 SparkR, MLlib 和 GraphX 裏面添加新功能外，該版本更多的工做在系統的可用性（usability）、穩定性（stability）以及代碼的潤色（polish）並解決了超過 1100 個tickets。html

這篇文章中將詳細介紹這些新特性，包括：算法

Structured Streaming的生產環境支持已經就緒；
擴展 SQL 的功能；
R 中引入了新的分佈式機器學習算法；
MLlib 和 GraphX 中添加了新的算法

Structured Streaming

Structured Streaming 是從 Spark 2.0 開始引入的，其提供了高層次的API來構建流應用程序；目的是提供一種簡單的方式來構建端到端的流應用程序（end-to-end streaming applications），提供了一致性保證和容錯方式。apache

從 Spark 2.2.0 開始，Structured Streaming 已經爲生產環境的支持準備就緒，除了移除了實驗性標籤，還包括了一些高層次的變化，好比：json

Kafka Source and Sink: Apache Kafka 0.10 的 streaming 和 batch API支持讀和寫操做；
Kafka Improvements: Kafka 到 Kafka 流操做中的producer 支持緩存以實現低延遲；
Additional Stateful APIs: [flat]MapGroupsWithState 操做支持複雜的狀態處理以及超時處理；
Run Once Triggers：詳情：Running Streaming Jobs Once a Day For 10x Cost Savings

SQL 和 Core APIs

自從 Spark 2.0 發佈，Spark 已經成爲大數據領域中功能最豐富而且符合標準的SQL查詢引擎之一。它能夠鏈接各類數據源，而且能夠在這些數據上執行 SQL-2003 標準語句，包括分析函數以及子查詢。Spark 2.2 還添加了許多 SQL 新功能，包括：緩存

API 更新: 統一了數據源和hive serde表的 CREATE TABLE 語法；SQL查詢支持廣播提示（broadcast hints ）好比BROADCAST, BROADCASTJOIN, 以及 MAPJOIN；
整體性能和穩定性:
- filter、join、aggregate、project 以及 limit/sample 操做支持基於成本優化器的基數統計（Cost-based optimizer cardinality estimation）；
- 使用星型啓發式（star-schema heuristics）來提高 TPC-DS 性能；
- CSV 和 JSON 文件 listing/IO 性能提高；
- HiveUDAFFunction 支持部分集合；
- 引入基於JVM對象的聚合運算符
其餘值得關注的改變:
- 支持解析多行的JSON 和 CSV 文件
- 分析分區表的命令