Spark2.x寫入Elasticsearch的性能測試

時間 2019-11-08

標籤 spark2.x spark 寫入 elasticsearch 性能測試欄目 Spark 简体版

原文原文鏈接

1、Spark集成ElasticSearch的設計動機web

ElasticSearch 毫秒級的查詢響應時間仍是很驚豔的。其優勢有：編程

1. 優秀的全文檢索能力架構

2. 高效的列式存儲與查詢能力框架

3. 數據分佈式存儲(Shard 分片)elasticsearch

相應的也存在一些缺點：分佈式

1. 缺少優秀的SQL支持函數

2. 缺少水平擴展的Reduce(Merge)能力，現階段的實現侷限在單機oop

3. JSON格式的查詢語言，缺少編程能力，難以實現很是複雜的數據加工，自定義函數(相似Hive的UDF等)性能

Spark 做爲一個計算引擎，能夠克服ES存在的這些缺點：優化

1. 良好的SQL支持

2. 強大的計算引擎，能夠進行分佈式Reduce

3. 支持自定義編程(採用原生API或者編寫UDF等函數對SQL作加強)

因此在構建即席多維查詢系統時，Spark 能夠和ES取得良好的互補效果

2、Spark與ElasticSearch結合的架構和原理

ES-Hadoop無縫打通了ES和Hadoop兩個很是優秀的框架，咱們既能夠把HDFS的數據導入到ES裏面作分析，也能夠將es數據導出到HDFS上作備份，歸檔，其中值得一提的是ES-Hadoop全面的支持了Spark框架，其中包括Spark，Spark Streaming，Spark SQL，此外也支持Hive，Pig，Storm，Cascading，固然還有標準的MapReduce，不管用那一個框架集成ES，都是很是簡潔的。最後還可使用Kibana提供的可視化的數據分析一條龍服務，很是棒的組合

整個數據流轉圖以下