Spark2.x與ElasticSearch的完美結合

ElasticSearch(簡稱ES)是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RestFul web接口。ElasticSearch是用Java開發的,並做爲Apache許可條款下的開放源碼發佈,是當前流行的企業級搜索引擎。設計用於雲計算中,可以達到實時搜索,穩定,可靠,快速,安裝使用方便的目地,當前在各大公司使用很是廣泛。而Spark是基於分佈式內存的高性能計算框架,用來處理大量的數據。本篇文章,我將與你們探討如何用Spark從ES中加載數據,並將數據保存到ES裏面。web

1. FEA-spk集成ElasticSearch服務器

FEA-spk技術,它的底層基於最流行的大數據開發框架Spark,對各類算子的操做都是基於DataFrame的。使用FEA-spk來作交互分析,不但很是簡單易懂,並且幾乎和Spark的功能同樣強大,更重要的一點是,它能夠實現可視化,處理的數據規模更大,能夠進行分佈式的機器學習等。框架

Spark2.x與ElasticSearch的完美結合,大大豐富了FEA-spk的業務處理能力。機器學習

2. FEA處理ElasticSearch的原語實現分佈式

(1) 建立spk的鏈接性能

(2) 建立ElasticSearch的鏈接學習

(3) 加載數據到ES中大數據

數據的格式以下表所示搜索引擎

能夠看到數據有一億多條,73個字段,數據量仍是比較大的。雲計算

(4)查看一下df1表的前十行

(5) 下面將df1表的數據寫回到ES裏面,其中spark是index,people是type。

因爲數據量比較大,因此咱們選擇後臺運行。

進入spark web界面,查看運行狀況。

能夠看到花費了3.6h,若是可以再調優一下,可能花費的時間更短

若是對個人文章感興趣,請幫忙點個贊噢。

相關文章
相關標籤/搜索