Elasticsearch 基礎介紹

時間 2021-04-04

標籤 java node sql docker 數據庫 bootstrap vim centos 數組瀏覽器欄目日誌分析简体版

原文原文鏈接

Elasticsearch簡介

基礎概念

Elasticsearch由Shay banon在2004年進行初步開發，而且在2010年2月發佈第一個版本。java

此後Shay banon在2012創建Elasticsearch BV公司，繼續圍繞Elasticsearch提供相關軟件和產品。node

Elasticsearch是一個實時的分佈式搜索分析引擎，它能讓你以一個史無前例的體驗來探索你的數據。sql

它常被做用於全文檢索、結構化搜索、數據分析這三個功能的組合。docker

功能介紹

Elasticsearch基於Apache Lucene的開源搜索引擎，而Lucene不管是在開源亦或是專有領域來講，它能夠被認爲是迄今爲止最早進、性能最好、功能最豐富的的搜索引擎庫。數據庫

可是，Lucene僅是一個Java庫，要想使用它你必須熟知Java並將其直接集成到你的應用中，更加糟糕的是Lucene很是複雜，你須要深刻了解檢索的相關知識來理解它是如何工做的。bootstrap

而Elasticsearch將Lucene當作核心，並屏蔽了大部分複雜的操做，經過簡單的RESTful API進行調用，從而讓全文搜索變的簡單。vim

與SQL的區別

Elasticsearch與MySQL的區別較大，其數據存儲採用JSON格式。centos

在其中，各個名詞術語也是不相同的，以下表所示：數組

Elasticsearch	SQL
索引	庫
類型（7版本後淡化該概念，8版本可能會被移除）	表
文檔	記錄
filed	字段

同時，MySQL並不適用於全文檢索，如要查詢某個字符串%，必須使用全表掃描瀏覽器

而Elasticsearch則很是適合全文檢索，而且能夠靈活的存儲不一樣類型的數據

如下是Elasticsearch應用場景：

商城的商品搜索
全部產品的評論
高亮顯示搜索內容
收集展現各類日誌

除此以外，相較於MySQL部署分佈式的繁瑣，Elasticsearch天生支持分佈式，部署簡單，維護輕鬆，也是對運維人員很是友好的一款數據庫產品。

一言以蔽之，Elasticsearch的出現並不是爲了取代SQL，而是專一於SQL不擅長的領域與其進行互補。

Elasticsearch安裝

安裝方式

Elasticsearch安裝方式有如下4種：

docker:

優勢：
- 部署方便
- 開箱即用
- 啓動迅速
缺點：
- 須要有docker相關知識
- 修改配置比較麻煩
- 數據存儲須要掛載目錄
tar

優勢：
- 部署靈活
- 對系統侵佔性小
缺點：
- 須要本身寫啓動管理文件
- 目錄要提早進行規劃
rpm | deb：

優勢：
- 部署方便
- 啓動腳本安裝即用
- 存放目錄較爲標準化
缺點：
- 軟件各個組件分散在不一樣目錄
- 卸載可能不乾淨
- 默認配置須要修改
ansible

優勢：
- 及其靈活
- 功能全面
- 批量部署速度快
缺點：
- 須要學習ansible語法和規則
- 須要提早規劃好全部標準
- 須要有專人進行維護

Rpm安裝

在這裏將採用rpm進行安裝，版本爲7.6.1，算是目前較新的版本。

1）安裝Java環境，最少要求1.8：

$ yum install -y java-1.8.0-openjdk.x86_64

2）下載安裝軟件，若是速度慢能夠在其餘瀏覽器上進行下載後經過scp傳輸：

$ cd ~
$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.6.1-x86_64.rpm

3）進行安裝：

$ rpm -ivh elasticsearch-7.6.1-x86_64.rpm

配置啓動

1）從新加載sys項目：

$ systemctl daemon-reload

2）配置開機啓動：

$ systemctl enable elasticsearch.service

3）啓動Elasticsearch服務（過程較慢，查看日誌，耐心等待）：

$ systemctl start elasticsearch.service

4）查看啓動狀態，確保配置文件沒有問題：

$ systemctl status elasticsearch.service

5）因爲Elasticsearch啓動較慢，檢查服務進程是否成功啓動：

$ ps -ef | grep elasticsearch
$ netstat -lnpt | grep 9200     # 查看9200端口

若是啓動失敗，請檢查內存等是否充裕，或者進行jvm內存限制。

目錄介紹

經過如下命令查看Elasticsearch安裝目錄：

$ rpm -ql elasticsearch

經過如下命令查看Elasticsearch配置文件：

$ rpm -qc elasticsearch

重要目錄與文件：

/etc/elasticsearch/elasticsearch.yml  # 配置文件
/etc/elasticsearch/jvm.options        # jvm虛擬機配置文件
/etc/init.d/elasticsearch             # init啓動文件
/etc/sysconfig/elasticsearch          # 環境變量配置文件
/usr/lib/sysctl.d/elasticsearch.conf  # sysctl變量文件
/usr/lib/systemd/system/elasticsearch.service   # systemd啓動文件
/var/lib/elasticsearch                # 數據目錄
/var/log/elasticsearch                # 日誌目錄
/var/run/elasticsearch                # pid目錄

修改配置

Elasticsearch的默認配置已經作得很是好，可是如下一些配置你能夠進行選配：

# 查看數據和日誌目錄
$ egrep -v "^#" /etc/elasticsearch/elasticsearch.yml

配置項：

cluster.name: my-application               # 集羣名稱
node.name: node-1                          # 節點名稱
path.data: /data/elasticsearch             # 數據目錄
path.logs: /var/log/elasticsearch          # 日誌目錄
bootstrap.memory_lock: true                # 鎖定內存
network.host: localhost                    # 綁定IP地址
http.port: 9200                            # 綁定端口號
discovery.zen.ping.unicast.hosts: [「localhost」]  # 集羣發現的通信節點
discovery.zen.minimum_master_nodes: 2            # 最小主節點數

修改內存配置，打開註釋：

$ vim /etc/elasticsearch/elasticsearch.yml

# 所在集羣名稱與該服務在集羣中的名稱
cluster.name: my-application
node.name: node-1


# 服務綁定的地址和端口
network.host: 192.168.0.110
http.port: 9200

# 做爲集羣主節點啓動
cluster.initial_master_nodes: ["node-1"]

# 是否開啓內存限制
action.destructive_requires_name: true

在jvm虛擬機中進行內存限定，根據實際狀況進行設定，因爲我這臺centos7的服務器內存較小，所以設定的也比較小，注意這裏最大不能超過32G：

$ vim /etc/elasticsearch/jvm.options

-Xms512m  # 最小內存
-Xmx512m  # 最大內存

重啓生效：

$ systemctl restart elasticsearch.service

數據目錄

若是你的數據目錄發生了變動，請確保使用Elasticsearch的管理用戶對目錄進行受權操做：

$ id elasticsearch
uid=996(elasticsearch) gid=992(elasticsearch) 組=992(elasticsearch)

再也不進行演示。

相關術語

索引詞

在Elasticsearch中索引詞(term)是一個可以被索引的精確值。

foo、Foo、FOO幾個單詞是不一樣的索引詞。

索引詞(term)是能夠經過term查詢進行準確的搜索。

文本(text)

文本是一段普通的非結構化文字。

一般，文本會被分拆成一個個的索引詞，存儲在elasticsearch 的索引庫中。

爲了讓文本可以進行搜索，文本字段須要事先進行分析了;

當對文本中的關鍵詞進行查詢的時候，搜索引擎應該根據搜索條件搜索出原文本。

分析(analysis)

分析是將文本轉換爲索引詞的過程，分析的結果依賴於分詞器。

好比:FOO BAR、Foo-Bar和 foo bar這幾個詞有可能會被分析成相同的索引詞foo和bar，這些索引詞存儲在Elasticsearch的索引庫中。

集羣(cluster)

集羣由一個或多個節點組成，對外提供服務，對外提供索引和搜索功能。

在全部節點，一個集羣有一個惟一的名稱默認爲「elasticsearch」

此名稱是很重要的，由於每一個節點只能是集羣的一部分，當該節點被設置爲相同的集羣名稱時，就會自動加入集羣。

當須要有多個集羣的時候，要確保每一個集羣的名稱不能重複，不然節點可能會加入到錯誤的集羣。

請注意，一個節點只能加入到一個集羣。

此外，你還能夠擁有多個獨立的集羣，每一個集羣都有其不一樣的集羣名稱。

節點(node)

一個節點是一個邏輯上獨立的服務，它是集羣的一部分，能夠存儲數據，並參與集羣的索引和搜索功能。

就像集羣同樣，節點也有惟一的名字，在啓動的時候分配。

若是你不想要默認名稱，你能夠定義任何你想要的節點名。

這個名字在數據處理中很重要，在Elasticsearch集羣經過節點名稱進行管理和通訊，一個節點能夠被配置加入到一個特定的集羣。

默認狀況下，每一個節點會加入名爲Elasticsearch 的集羣中，這意味着若是你在局域網中部署多個節點，若是網絡暢通，他們能彼此發現並自動加入名爲Elasticsearch 的一個集羣中。

你能夠擁有多個你想要的節點。當網絡沒有集羣運行的時候，只要啓動一個節點，這個節點會默認生成一個新的集羣，這個集羣也會有本身的一個節點。

分片(shard)

分片是單個Lucene 實例，這是Elasticsearch管理的比較底層的功能。

索引是指向主分片和副本分片的邏輯空間。

對於使用，只須要指定分片的數量,其餘不須要作過多的事情。

在開發使用的過程當中，咱們對應的對象都是索引，Elasticsearch 會自動管理集羣中全部的分片，當發生故障的時候，Elasticsearch 會把分片移動到不一樣的節點或者添加新的節點。

一個索引能夠存儲很大的數據，這些空間能夠超過一個節點的物理存儲的限制。

例如：十億個文檔佔用磁盤空間爲 1TB。

僅從單個節點搜索可能會很慢，還有一臺物理機器也不必定能存儲這麼多的數據。

爲了解決這一問題，Elasticsearch將索引分解成多個分片。

當你建立一個索引，你能夠簡單地定義你想要的分片數量。

每一個分片自己是一個全功能的、獨立的單元，能夠託管在集羣中的任何節點。

主分片

每一個文檔都存儲在一個分片中，當你存儲一個文檔的時候，系統會首先存儲在主分片中，而後會複製到不一樣的副本中。

默認狀況下，一個索引有5個主分片。

你能夠事先制定分片的數量,當分片一旦創建，則分片的數量不能修改。

副本分片

每個分片有零個或多個副本。

副本主要是主分片的複製，其中有兩個目的:

增長高可用性:當主分片失敗的時候,能夠從副本分片中選擇一個做爲主分片。
提升性能:當查詢的時候能夠到主分片或者副本分片中進行查詢。

默認情況下，一個主分片配有一個副本，但副本的數量能夠在後面動態地配置增長。

副本分片必部署在不一樣的節點上，不能部署在和主分片相同的節點上。

索引(index)

索引是具備相同結構的文檔集合。

例如：能夠有一個客戶信息的索引,包括一個產品目錄的索引,一個訂單數據的索引。

在系統上索引的名字所有小寫，經過這個名字能夠用來執行索引、搜索、更新和刪除操做等。

在單個集羣中，能夠定義多個你想要的索引。

類型(type)

在索引中，能夠定義一個或多個類型，類型是索引的邏輯分區。

在通常狀況下，一種類型被定義爲具備一組公共字段的文檔。

例如，讓咱們假設你運行一個博客平臺，並把全部的數據存儲在一個索引中。

在這個索引中，你能夠定義一種類型爲用戶數據，一種類型爲博客數據，另外一種類型爲評論數據。

文檔(doc)

文檔是存儲在Elasticsearch中的一個JSON格式的字符串。

它就像在關係數據庫中表的一行。

每一個存儲在索引中的一個文檔都有一個類型和一個ID，每一個文檔都是一個JSON對象，存儲了零個或者多個字段,或者鍵值對。

原始的 JSON 文檔假存儲在一個叫做Sour的字段中。

當搜索文檔的時候默認返回的就是這個字段。

映射

映射像關係數據庫中的表結構。

每個索引都有一個映射，它定義了索引中的每個字段類型，以及一個索引範圍內的設置。

一個映射能夠事先被定義，或者在第一次存儲文檔的時候自動識別。

字段

文檔中包含零個或者多個字段，字段能夠是一個簡單的值(例如字符串、整數、日期)，也能夠是一個數組或對象的嵌套結構。

字段相似於關係數據庫中表的列。

每一個字段都對應一個字段類型，例如整數、字符串、對象等。

字段還能夠指定如何分析該字段的值。

主鍵

ID是一個文件的惟一標識。

若是在存庫的時候沒有提供ID，系統會自動生成一個ID。

文檔的 index與type的ID必須是惟一的。

複製

複製是一個很是有用的功能，否則會有單點問題。

當網絡中的某個節點出現問題的時候，複製能夠對故障進行轉移，保證系統的高可用。

所以，Elasticsearch容許你建立一個或多個拷貝，你的索引分片就造成了所謂的副本或副本分片。

複製是重要的，主要的緣由有:

它提供丁高可用性,當節點失敗的時候不受影響。須要注意的是，一個複製的分片不會存儲在同一個節點中。
它容許你擴展搜索量,提升併發量,由於搜索能夠在全部副本上並行執行。每一個索引能夠拆分紅多個分片。

索引能夠複製零個或者多個分片，一旦複製，每一個索引就有了主分片和副本分片。

分片的數量和副本的數量能夠在建立索引時定義，當建立索引後，你能夠隨時改變副本的數量，但你不能改變分片的數量。

默認情況下，每一個索引分配5個分片和一個副本，這意味着你的集羣節點至少要有兩個節點，你將擁有5個主要的分片和5個副本分片共計10個分片。

每一個Elasticsearch分片是一個Lucene 的索引。

有文檔存儲數量限制，你能夠在一個單一的Lucene索引中存儲的最大值爲lucene-5843，極限是2147483519(=integer.max_value-128)個文檔。

你可使用cat/shards API監控分片的大小。

倒排索引

Elasticsearch基於Lucene，而Lucene可以作到全文檢索的功能就依賴於倒排索引。

document被成功index錄入後，Elasticsearch會對index建立一張倒排索引表。

以下所示，這裏有2個文檔，都在一個index中：

DOCUMENT1 : "Hello,Elasticsearch"
DOCUMENT2 : "Hello,World And Elasticsearch"

這個index的倒排索引表以下，它會將上述document的詞彙進行拆分並記錄：

term(精確查找)	document01	document02
Hello	√	√
World	×	×
Hi	×	×
Elasticsearch	√	√
And	×	√

在進行查詢時，會經過關鍵詞命中得到分數，分數越高查詢的條件排名越靠前。

如，我查詢的詞彙是「Hello World」，結果以下：

DOCUMENT2 : Hello 存在 World 存在    得分 2
DOCUMENT1 : Hello 存在 World 不存在  得分 1

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。