從 Lucene 到 Elasticsearch

時間 2019-12-19

標籤 lucene elasticsearch 欄目日誌分析简体版

原文原文鏈接

做者：靠髮型吃飯的柳樹算法

原文地址：https://mp.weixin.qq.com/s/223b7xAABBtplpAv5OjAIgsql

食譜的故事

那一年，倫敦，Shay Banon 在找工做，他老婆在烹飪學校學習廚藝。數據庫

Shay 發現，老婆天天都要在大量的食譜中找本身想要的那份食譜，因而在找工做之餘，開始給老婆作一個食譜搜索的工具。api

市面上的搜索引擎，彷佛沒什麼選擇，只有 Lucene，可是 Lucene 又很難用，因而 Shay 在外面又抽象了一層，屏蔽了 Lucene 底層的複雜邏輯。bash

Shay 開源了這套給老婆搜索食譜用的系統，叫 Compass.restful

後來， Shay 找到了工做，他發現以前寫的那套系統，在追求高性能、高可用的生產環境，實在太脆弱，因而又從新寫了一套，Compass 也更名爲了 Elasticsearch.架構

Shay 在把 Compass 重寫爲 Elasticsearch 時，面對的問題，其實就是：nosql

你已經擁有了 Lucene，擁有了倒排索引，如何用它們來創造一個，讓用戶用起來特別爽、又特別可靠的搜索引擎？工具

Now，讓咱們跟着 Shay 的腳步，一塊兒設計一個高性能高可靠的 Elasticsearch 吧！性能

Shay 如今擁有的一切：

簡單畫個圖：

如今咱們屏蔽 Elasticsearch 的底層實現，其實一個 Elasticsearch 實例對於咱們來講，就是一個節點，一個能夠提供數據搜索和探尋能力的節點：

一開始，裏面空空如也，什麼都沒有。

Mysql 往數據庫插入數據以前，須要先建立表，指定字段、主鍵等等，Elasticsearch 也須要建立「表」。

在 Elasticsearch 的領域語言裏，「表」被稱爲「索引」，「行數據」被稱爲「文檔」。

如今咱們往節點裏面定義一個「索引」blog：

PUT /blogs{ "settings" : { "number_of_shards" : 3, "number_of_replicas" : 1 }}複製代碼

你會發現，和 Mysql 不一樣，咱們並無定義這個「表」裏有什麼字段，這就是 nosql 的好處，你能夠在以後插入的文檔裏，隨時給這個「表」添加新的字段。

咱們定義的是兩個配置：

number_of_shards：主分片數。shards，分片，分片有「主分片」和「副本分片」，這裏指的是「主分片」，默認是 5 個主分片，這裏指定爲 3，即 blog 索引的數據，會被分散到 3 個分片裏面，起到控制每一個分片裏文檔數量個數的做用，提供查詢和搜索效率，能夠理解爲 Mysql 裏的分表。
number_of_replicas：副本分片數。replicas，副本，也就是上面說的「副本分片」。副本分片只是一個主分片的拷貝，做爲硬件故障時保護數據不丟失的冗餘備份，併爲搜索和返回文檔等讀操做提供服務。

如今咱們的節點，再也不是空空如也，而是這樣：