Elasticsearch入門，這一篇就夠了

時間 2019-11-18

原文原文鏈接

實時搜索引擎Elasticsearch

Elasticsearch（簡稱ES）是一個基於Apache Lucene(TM)的開源搜索引擎，不管在開源仍是專有領域，Lucene能夠被認爲是迄今爲止最早進、性能最好的、功能最全的搜索引擎庫。javascript

Elasticsearch簡介

Elasticsearch是什麼

Elasticsearch是一個基於Apache Lucene(TM)的開源搜索引擎，不管在開源仍是專有領域，Lucene能夠被認爲是迄今爲止最早進、性能最好的、功能最全的搜索引擎庫。
可是，Lucene只是一個庫。想要發揮其強大的做用，你需使用Java並要將其集成到你的應用中。Lucene很是複雜，你須要深刻的瞭解檢索相關知識來理解它是如何工做的。
Elasticsearch也是使用Java編寫並使用Lucene來創建索引並實現搜索功能，可是它的目的是經過簡單連貫的RESTful API讓全文搜索變得簡單並隱藏Lucene的複雜性。
不過，Elasticsearch不只僅是Lucene和全文搜索引擎，它還提供：css

分佈式的實時文件存儲，每一個字段都被索引並可被搜索
實時分析的分佈式搜索引擎
能夠擴展到上百臺服務器，處理PB級結構化或非結構化數據

並且，全部的這些功能被集成到一臺服務器，你的應用能夠經過簡單的RESTful API、各類語言的客戶端甚至命令行與之交互。上手Elasticsearch很是簡單，它提供了許多合理的缺省值，並對初學者隱藏了複雜的搜索引擎理論。它開箱即用（安裝便可使用），只需不多的學習既可在生產環境中使用。Elasticsearch在Apache 2 license下許可以使用，能夠免費下載、使用和修改。
隨着知識的積累，你能夠根據不一樣的問題領域定製Elasticsearch的高級特性，這一切都是可配置的，而且配置很是靈活。html

以上內容來自 [百度百科]java

Elasticsearch中涉及到的重要概念

Elasticsearch有幾個核心概念。從一開始理解這些概念會對整個學習過程有莫大的幫助。node

（1）接近實時（NRT）
Elasticsearch是一個接近實時的搜索平臺。這意味着，從索引一個文檔直到這個文檔可以被搜索到有一個輕微的延遲（一般是1秒）。linux

（2）集羣（cluster）
一個集羣就是由一個或多個節點組織在一塊兒，它們共同持有你整個的數據，並一塊兒提供索引和搜索功能。一個集羣由一個惟一的名字標識，這個名字默認就是「elasticsearch」。這個名字是重要的，由於一個節點只能經過指定某個集羣的名字，來加入這個集羣。在產品環境中顯式地設定這個名字是一個好習慣，可是使用默認值來進行測試/開發也是不錯的。git

（3）節點（node）
一個節點是你集羣中的一個服務器，做爲集羣的一部分，它存儲你的數據，參與集羣的索引和搜索功能。和集羣相似，一個節點也是由一個名字來標識的，默認狀況下，這個名字是一個隨機的漫威漫畫角色的名字，這個名字會在啓動的時候賦予節點。這個名字對於管理工做來講挺重要的，由於在這個管理過程當中，你會去肯定網絡中的哪些服務器對應於Elasticsearch集羣中的哪些節點。github

一個節點能夠經過配置集羣名稱的方式來加入一個指定的集羣。默認狀況下，每一個節點都會被安排加入到一個叫作「elasticsearch」的集羣中，這意味着，若是你在你的網絡中啓動了若干個節點，並假定它們可以相互發現彼此，它們將會自動地造成並加入到一個叫作「elasticsearch」的集羣中。sql

在一個集羣裏，只要你想，能夠擁有任意多個節點。並且，若是當前你的網絡中沒有運行任何Elasticsearch節點，這時啓動一個節點，會默認建立並加入一個叫作「elasticsearch」的集羣。shell

（4）索引（index）
一個索引就是一個擁有幾分類似特徵的文檔的集合。好比說，你能夠有一個客戶數據的索引，另外一個產品目錄的索引，還有一個訂單數據的索引。一個索引由一個名字來標識（必須所有是小寫字母的），而且當咱們要對對應於這個索引中的文檔進行索引、搜索、更新和刪除的時候，都要使用到這個名字。索引相似於關係型數據庫中Database的概念。在一個集羣中，若是你想，能夠定義任意多的索引。

（5）類型（type）
在一個索引中，你能夠定義一種或多種類型。一個類型是你的索引的一個邏輯上的分類/分區，其語義徹底由你來定。一般，會爲具備一組共同字段的文檔定義一個類型。好比說，咱們假設你運營一個博客平臺而且將你全部的數據存儲到一個索引中。在這個索引中，你能夠爲用戶數據定義一個類型，爲博客數據定義另外一個類型，固然，也能夠爲評論數據定義另外一個類型。類型相似於關係型數據庫中Table的概念。

（6）文檔（document）
一個文檔是一個可被索引的基礎信息單元。好比，你能夠擁有某一個客戶的文檔，某一個產品的一個文檔，固然，也能夠擁有某個訂單的一個文檔。文檔以JSON（Javascript Object Notation）格式來表示，而JSON是一個處處存在的互聯網數據交互格式。
在一個index/type裏面，只要你想，你能夠存儲任意多的文檔。注意，儘管一個文檔，物理上存在於一個索引之中，文檔必須被索引/賦予一個索引的type。文檔相似於關係型數據庫中Record的概念。實際上一個文檔除了用戶定義的數據外，還包括_index、_type和_id字段。

（7）分片和複製（shards & replicas）
一個索引能夠存儲超出單個結點硬件限制的大量數據。好比，一個具備10億文檔的索引佔據1TB的磁盤空間，而任一節點都沒有這樣大的磁盤空間；或者單個節點處理搜索請求，響應太慢。

爲了解決這個問題，Elasticsearch提供了將索引劃分紅多份的能力，這些份就叫作分片。當你建立一個索引的時候，你能夠指定你想要的分片的數量。每一個分片自己也是一個功能完善而且獨立的「索引」，這個「索引」能夠被放置到集羣中的任何節點上。
分片之因此重要，主要有兩方面的緣由：

容許你水平分割/擴展你的內容容量
容許你在分片（潛在地，位於多個節點上）之上進行分佈式的、並行的操做，進而提升性能/吞吐量

至於一個分片怎樣分佈，它的文檔怎樣聚合回搜索請求，是徹底由Elasticsearch管理的，對於做爲用戶的你來講，這些都是透明的。

在一個網絡/雲的環境裏，失敗隨時均可能發生，在某個分片/節點不知怎麼的就處於離線狀態，或者因爲任何緣由消失了。這種狀況下，有一個故障轉移機制是很是有用而且是強烈推薦的。爲此目的，Elasticsearch容許你建立分片的一份或多份拷貝，這些拷貝叫作複製分片，或者直接叫複製。複製之因此重要，主要有兩方面的緣由：

在分片/節點失敗的狀況下，提供了高可用性。由於這個緣由，注意到複製分片從不與原/主要（original/primary）分片置於同一節點上是很是重要的。
擴展你的搜索量/吞吐量，由於搜索能夠在全部的複製上並行運行

總之，每一個索引能夠被分紅多個分片。一個索引也能夠被複制0次（意思是沒有複製）或屢次。一旦複製了，每一個索引就有了主分片（做爲複製源的原來的分片）和複製分片（主分片的拷貝）之別。分片和複製的數量能夠在索引建立的時候指定。在索引建立以後，你能夠在任什麼時候候動態地改變複製數量，可是不能改變分片的數量。

默認狀況下，Elasticsearch中的每一個索引被分片5個主分片和1個複製，這意味着，若是你的集羣中至少有兩個節點，你的索引將會有5個主分片和另外5個複製分片（1個徹底拷貝），這樣的話每一個索引總共就有10個分片。一個索引的多個分片能夠存放在集羣中的一臺主機上，也能夠存放在多臺主機上，這取決於你的集羣機器數量。主分片和複製分片的具體位置是由ES內在的策略所決定的。

以上部份內容轉自Elasticsearch基礎教程，並對其進行了補充。

Elasticsearch安裝與配置

安裝與運行

(1) 從這裏下載Elasticsearch安裝包。一共提供4種格式的安裝包（ZIP、TAR.GZ、DEB和RPM），能夠根據本身所使用的系統平臺選擇相應格式的安裝包進行下載。（建議使用Linux系統，本人在2臺windows機器上嘗試啓動過，一臺機器上沒法正常啓動，另一臺能夠）

(2) 對下載的安裝包進行解壓縮便可完成安裝操做。下面以在Ubuntu操做系統下使用TAR.GZ格式的1.5.0版本的安裝包爲例進行安裝。在Linux shell中輸入下面的命令解壓縮。

tar –vxf elasticsearch-1.5.0.tar.gz

安裝成功，下面運行ES。

注意：Elasticsearch須要Java虛擬機的支持，在運行以前保證機器上安裝了JDK，而且JDK版本不能低於1.7_55。

(3) 如今能夠直接使用默認配置啓動Elasticsearch了。
假設安裝包解壓後的目錄路徑爲【/home/elasticsearch/elasticsearch-1.5.0】，下面軍用$ES_HOME來表示這個路徑。執行下面的命令：

cd /home/elasticsearch/elasticsearch-1.5.0/bin/ chmod +x * ./elasticsearch

若是出現如圖所示的界面（最後打印出started），則說明Elasticsearch啓動成功。

下面來驗證一下是否真的啓動成功。打開瀏覽器，訪問網址 http://host:9200（這裏的host是ES的安裝主機地址，若是安裝在本機，就是http://127.0.0.1:9200）。若是顯示下面的信息，則表示ES安裝成功。

{
  "status" : 200, "name" : "Captain Zero", "cluster_name" : "elasticsearch", "version" : { "number" : "1.5.0", "build_hash" : "544816042d40151d3ce4ba4f95399d7860dc2e92", "build_timestamp" : "2015-03-23T14:30:58Z", "build_snapshot" : false, "lucene_version" : "4.10.4" }, "tagline" : "You Know, for Search" }

上面是前臺啓動方式，一旦關閉Linux shell，ES服務就會中止。因此是實際使用過程當中，絕對不會使用這種方式去啓動ES。除了上面的啓動方式外，還能夠加上必定的啓動參數。例如：

./elasticsearch –d #在後臺運行Elasticsearch

./elasticsearch -d -Xmx2g -Xms2g #後臺啓動，啓動時指定內存大小（2G）

./elasticsearch -d -Des.logger.level=DEBUG #能夠在日誌中打印出更加詳細的信息。

ES的配置

配置文件所在的目錄路徑以下：$ES_HOME/config/elasticsearch.yml。
下面介紹一些重要的配置項及其含義。

（1）cluster.name: elasticsearch

配置elasticsearch的集羣名稱，默認是elasticsearch。elasticsearch會自動發如今同一網段下的集羣名爲elasticsearch的主機，若是在同一網段下有多個集羣，就能夠用這個屬性來區分不一樣的集羣。生成環境時建議更改。

（2）node.name: 「Franz Kafka」

節點名，默認隨機指定一個name列表中名字，該列表在elasticsearch的jar包中config文件夾裏name.txt文件中，其中有不少做者添加的有趣名字，大部分是漫威動漫裏面的人物名字。生成環境中建議更改以能方便的指定集羣中的節點對應的機器

（3）node.master: true

指定該節點是否有資格被選舉成爲node，默認是true，elasticsearch默認集羣中的第一臺啓動的機器爲master，若是這臺機掛了就會從新選舉master。

（4）node.data: true

指定該節點是否存儲索引數據，默認爲true。若是節點配置node.master:false而且node.data: false，則該節點將起到負載均衡的做用

（5）index.number_of_shards: 5

設置默認索引分片個數，默認爲5片。經本人測試，索引分片對ES的查詢性能有很大的影響，在應用環境，應該選擇適合的分片大小。

（6）index.number_of_replicas:

設置默認索引副本個數，默認爲1個副本。此處的1個副本是指index.number_of_shards的一個徹底拷貝；默認5個分片1個拷貝；即總分片數爲10。

（7）path.conf: /path/to/conf

設置配置文件的存儲路徑，默認是es根目錄下的config文件夾。

（8）path.data:/path/to/data1,/path/to/data2

設置索引數據的存儲路徑，默認是es根目錄下的data文件夾，能夠設置多個存儲路徑，用逗號隔開。

（9）path.work:/path/to/work

設置臨時文件的存儲路徑，默認是es根目錄下的work文件夾。

（10）path.logs: /path/to/logs

設置日誌文件的存儲路徑，默認是es根目錄下的logs文件夾

（11）path.plugins: /path/to/plugins

設置插件的存放路徑，默認是es根目錄下的plugins文件夾

（12）bootstrap.mlockall: true

設置爲true來鎖住內存。由於當jvm開始swapping時es的效率會下降，因此要保證它不swap，能夠把ES_MIN_MEM和ES_MAX_MEM兩個環境變量設置成同一個值，而且保證機器有足夠的內存分配給es。同時也要容許elasticsearch的進程能夠鎖住內存，linux下能夠經過ulimit -l unlimited命令。

（13）network.bind_host: 192.168.0.1

設置綁定的ip地址，能夠是ipv4或ipv6的，默認爲0.0.0.0。

（14）network.publish_host: 192.168.0.1

設置其它節點和該節點交互的ip地址，若是不設置它會自動判斷，值必須是個真實的ip地址。

（15）network.host: 192.168.0.1

這個參數是用來同時設置bind_host和publish_host上面兩個參數。

（16）transport.tcp.port: 9300

設置節點間交互的tcp端口，默認是9300。

（17）transport.tcp.compress: true

設置是否壓縮tcp傳輸時的數據，默認爲false，不壓縮。

（18）http.port: 9200

設置對外服務的http端口，默認爲9200。

（19）http.max_content_length: 100mb

設置內容的最大容量，默認100mb

（20）http.enabled: false

是否使用http協議對外提供服務，默認爲true，開啓。

（21）gateway.type: local

gateway的類型，默認爲local即爲本地文件系統，能夠設置爲本地文件系統，分佈式文件系統，hadoop的HDFS，和amazon的s3服務器，其它文件系統的設置。

（22）gateway.recover_after_nodes: 1

設置集羣中N個節點啓動時進行數據恢復，默認爲1。

（23）gateway.recover_after_time: 5m

設置初始化數據恢復進程的超時時間，默認是5分鐘。

（24）gateway.expected_nodes: 2

設置這個集羣中節點的數量，默認爲2，一旦這N個節點啓動，就會當即進行數據恢復。

（25）cluster.routing.allocation.node_initial_primaries_recoveries: 4

初始化數據恢復時，併發恢復線程的個數，默認爲4。

（26）cluster.routing.allocation.node_concurrent_recoveries: 2

添加刪除節點或負載均衡時併發恢復線程的個數，默認爲4。

（27）indices.recovery.max_size_per_sec: 0

設置數據恢復時限制的帶寬，如入100mb，默認爲0，即無限制。

（28）indices.recovery.concurrent_streams: 5

設置這個參數來限制從其它分片恢復數據時最大同時打開併發流的個數，默認爲5。

（29）discovery.zen.minimum_master_nodes: 1

設置這個參數來保證集羣中的節點能夠知道其它N個有master資格的節點。默認爲1，對於大的集羣來講，能夠設置大一點的值（2-4）

（30）discovery.zen.ping.timeout: 3s

設置集羣中自動發現其它節點時ping鏈接超時時間，默認爲3秒，對於比較差的網絡環境能夠高點的值來防止自動發現時出錯。

（31）discovery.zen.ping.multicast.enabled: false

設置是否打開多播發現節點，默認是true。

（32）discovery.zen.ping.unicast.hosts: [「host1」, 「host2:port」, 「host3 [portX-portY] 「]

設置集羣中master節點的初始列表，能夠經過這些節點來自動發現新加入集羣的節點。

除了上面的在安裝時配置文件中就自帶的配置項外，本人在實際使用過程還使用到了下面的配置：

threadpool:
    search:
        type: fixed min: 60 max: 80 queue_size: 1000 // 配置es服務器的執行查詢操做時所用線程池，fix固定線程數的線程池。

index :
    store:
        type: memory // 表示索引存儲在內存中，固然es不太建議這麼作。經本人測試，作查詢時，使用內存索引並不會比正常的索引快。

index.mapper.dynamic: false // 禁止自動建立mapping。默認狀況下，es能夠根據數據類型自動建立mapping。配置成這樣，能夠禁止自動建立mapping的行爲。至於什麼是mapping，在以後的博文中再介紹。

index.query.parse.allow_unmapped_fields: false // 不能查找沒有在mapping中定義的屬性

以上總結介紹了Elasticsearch中的一些基礎知識，包括其中的一些核心概念。只有理解了ES中的這些核心概念，才能對更加駕輕就熟地使用ES，發揮其強大的搜索能力。同時，也介紹了ES的安裝和運行，ES的安裝和運行是很簡單的，只須要極少的簡單步驟，就能夠開始體驗ES。ES的配置很是豐富，安裝時自帶的配置文件只包含一部分比較核心的配置項，更多的配置內容須要本身去閱讀ES的源碼時才能被發現。

ES Restful API基本使用：

ES爲開發者提供了很是豐富的基於HTTP協議的Rest API，只須要向ES服務端發送簡單的Rest請求，就能夠實現很是強大的功能。本篇文章主要介紹ES中經常使用操做的Rest API的使用，同時會講解ES的源代碼工程中的API接口文檔，經過了解這個API文檔的接口描述結構，就基本上能夠實現ES中的絕大部分功能。

注意：查詢是ES的核心。做爲一個先進的搜索引擎，ES中提供了多種查詢接口。本篇僅僅會涉及查詢API的結構，而具體如何使用ES所提供的各類查詢API，會在接下來的博文中作詳細介紹。

基礎知識

若是以前沒有用過相似於ES這樣的索引數據庫（暫且將ES歸爲數據庫類，與傳統的數據庫有較大的區別），要理解本篇博文介紹的API是有些難度的。本節先介紹一些基礎知識，對理解全文有很幫助。

Rest介紹

筆者在學習軟件開發過程當中，屢次聽到過Rest Http這個概念，但在很長的一段時間裏，死活搞不懂這玩意究竟是個什麼東西。剛開始看相關資料時，看得雲裏霧裏，徹底不知所云 _。這玩意太過於抽象和理論，內心以爲有必要搞這麼複雜麼。隨着本身動手開發的東西愈來愈多，纔開始對它有了一丟丟感受。

Rest徹底不是三言兩語就能將清楚的，它有本身的一套體系，因此筆者打算之後單獨寫一些有關Rest的博文。在這裏推薦一篇優秀的文章，它對Rest講的至關清楚，本人看完以後真有醍醐灌頂的感受！

Mapping詳解

Mapping是ES中的一個很重要的內容，它相似於傳統關係型數據中table的schema，用於定義一個索引（index）的某個類型（type）的數據的結構。

在傳統關係型數據庫，咱們必須首先建立table並同時定義其schema，以下面的SQL語句。下面代碼中小括號內的代碼的做用就是定義person_info的schema（模式）。

create table person_info ( name varchar(20), age tinyint )

在ES中，咱們無需手動建立type（至關於table）和mapping(相關與schema)。在默認配置下，ES能夠根據插入的數據自動地建立type及其mapping。在下面的API介紹部分中，會作相關的試驗。固然，在實際使用過程當中咱們可能就想硬性規定mapping，能夠經過配置文件關閉ES的自動建立mapping功能。

mapping中主要包括字段名、字段數據類型和字段索引類型這3個方面的定義。

字段名：這就不用說了，與傳統數據庫字段名做用同樣，就是給字段起個惟一的名字，好讓系統和用戶能識別。

字段數據類型：定義該字段保存的數據的類型，不符合數據類型定義的數據不能保存到ES中。下表列出的是ES中所支持的數據類型。（大類是對全部類型的一種歸類，小類是實際使用的類型。）

大類	包含的小類
String	string
Whole number	byte, short, integer, long
Floating point	float, double
Boolean	boolean
Date	date

字段索引類型：索引是ES中的核心，ES之因此可以實現實時搜索，徹底歸功於Lucene這個優秀的Java開源索引。在傳統數據庫中，若是字段上創建索引，咱們仍然可以以它做爲查詢條件進行查詢，只不過查詢速度慢點。而在ES中，字段若是不創建索引，則就不能以這個字段做爲查詢條件來搜索。也就是說，不創建索引的字段僅僅能起到數據載體的做用。string類型的數據確定是平常使用得最多的數據類型，下面介紹mapping中string類型字段能夠配置的索引類型。

索引類型	解釋
analyzed	首先分析這個字符串，而後再創建索引。換言之，以全文形式索引此字段。
not_analyzed	索引這個字段，使之能夠被搜索，可是索引內容和指定值同樣。不分析此字段。
no	不索引這個字段。這個字段不能被搜索到。

若是索引類型設置爲analyzed，在表示ES會先對這個字段進行分析（通常來講，就是天然語言中的分詞），ES內置了很多分析器（analyser），若是以爲它們對中文的支持很差，也可使用第三方分析器。因爲筆者在實際項目中僅僅將ES用做普通的數據查詢引擎，因此並無研究過這些分析器。若是將ES當作真正的搜索引擎，那麼挑選正確的分析器是相當重要的。

mapping中除了上面介紹的3個主要的內容外，還有其餘的定義內容，詳見官網文檔。

經常使用的Rest API介紹

下面介紹一下ES中的一些經常使用的Rest API。掌握了這些API的用法，基本上就能夠簡單地使用ES了。

咱們須要藉助可以發送HTTP請求的工具調用這些API，工具是能夠任意的，包括網頁瀏覽器。這裏利用Linux上的curl命令來發送HTTP請求。基本的命令結構爲：

curl <-Xaction> url -d 'body' # 這裏的action表示HTTP協議中的各類動做，包括GET、POST、PUT、DELETE等。

注意。文中的示例代碼裏面包含了用戶註釋的文字，就是 # 號後面的文字。運行代碼時，請注意刪除這些註釋。

查看集羣（Cluster）信息相關API

（1）查看集羣健康信息。

curl -XGET "localhost:9200/_cat/heath?v"

返回結果爲：

epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks 1440206633 18:23:53 elasticsearch green 1 1 0 0 0 0 0 0

返回結果的主要字段意義：

cluster：集羣名，是在ES的配置文件中配置的cluster.name的值。
status：集羣狀態。集羣共有green、yellow或red中的三種狀態。green表明一切正常（集羣功能齊全），yellow意味着全部的數據都是可用的，可是某些複製沒有被分配（集羣功能齊全），red則表明由於某些緣由，某些數據不可用。若是是red狀態，則要引發高度注意，數據頗有可能已經丟失。
node.total：集羣中的節點數。
node.data：集羣中的數據節點數。
shards：集羣中總的分片數量。
pri：主分片數量，英文全稱爲private。
relo：複製分片總數。
unassign：未指定的分片數量，是應有分片數和現有的分片數的差值（包括主分片和複製分片）。

咱們也能夠在請求中添加help參數來查看每一個操做返回結果字段的意義。

curl -XGET "localhost:9200/_cat/heath?help"

返回結果以下：

epoch         | t,time | seconds since 1970-01-01 00:00:00 timestamp | ts,hms,hhmmss | time in HH:MM:SS cluster | cl | cluster name status | st | health status node.total | nt,nodeTotal | total number of nodes node.data | nd,nodeData | number of nodes that can store data shards | t,sh,shards.total,shardsTotal | total number of shards pri | p,shards.primary,shardsPrimary | number of primary shards relo | r,shards.relocating,shardsRelocating | number of relocating nodes init | i,shards.initializing,shardsInitializing | number of initializing nodes unassign | u,shards.unassigned,shardsUnassigned | number of unassigned shards pending_tasks | pt,pendingTasks | number of pending tasks

確實是很好很強大。有了這個東東，就能夠減小看文檔的時間。ES中許多API均可以添加help參數來顯示字段含義，哪些能夠這麼作呢？每一個API都試試就知道了。

固然，若是你以爲返回的東西太多，看着眼煩，咱們也能夠人爲地指定返回的字段。

curl -XGET "localhost:9200/_cat/health?h=cluster,pri,relo&v"

此次的返回結果就簡單不少羅。對於患有嚴重強迫症的患者來講，這是福音啊！

cluster pri relo elasticsearch 0 0

（2）查看集羣中的節點信息。

curl -XGET "localhost:9200/_cat/nodes?v"

返回節點的詳細信息以下：

host          ip            heap.percent ram.percent load node.role master name master.hadoop localhost 3 35 0.00 d * Ezekiel

（3）查看集羣中的索引信息。

curl -XGET "localhost:9200/_cat/indices?v"

返回集羣中的索引信息以下：

health status index      pri rep docs.count docs.deleted store.size pri.store.size yellow open index_test 5 1 0 0 575b 575b

更多的查看和監視ES的API參見官網文檔。

索引（Index）相關API

（1）建立一個新的索引。

curl -XPUT "localhost:9200/index_test"

若是返回下面的信息，則說明索引建立成功。若是不是，則ES會返回相應的異常信息。一般能夠經過異常信息的最後一項推斷出失敗的緣由。

{
    "acknowledged": true }

上面的操做使用默認的配置信息建立一個索引。大多數狀況下，咱們想在索引建立的時候就將咱們所需的mapping和其餘配置肯定好。下面的操做就能夠在建立索引的同時，建立settings和mapping。

curl -XPUT "localhost:9200/index_test" -d ' # 注意這裏的'號 { "settings": { "index": { "number_of_replicas": "1", # 設置複製數 "number_of_shards": "5" # 設置主分片數 } }, "mappings": { # 建立mapping "test_type": { # 在index中建立一個新的type(至關於table) "properties": { "name": { # 建立一個字段（string類型數據，使用普通索引） "type": "string", "index": "not_analyzed" }, "age": { "type": "integer" } } } } }'

（2）刪除一個索引。

curl -XDELETE "localhost:9200/index_test"

若是返回與建立索引一樣的信息，則說明刪除成功。反之，則返回相應的異常信息。更多的索引操做參見ES官網文檔。

映射（Mapping）相關API

（1）建立索引的mapping。

curl -XPUT 'localhost:9200/index_test/_mapping/test_type' -d ' { "test_type": { # 注意，這裏的test_type與url上的test_type名保存一致 "properties": { "name": { "type": "string", "index": "not_analyzed" }, "age": { "type": "integer" } } } }'

若是不想單首創建mapping，可使用上一節的方法（建立索引時建立mappings）。

假設咱們的項目中有多個環境（開發環境、測試環境等），那每個環境的mapping總要一致的吧，那每次建立一次mappings就比較麻煩了，並且還容易致使數據不一致。莫急，ES還給咱們準備另一種建立mapping的方式。能夠按照下面的步驟來作。

步驟1 建立一個擴展名爲test_type.json的文件名，其中type_test就是mapping所對應的type名。

步驟2 在test_type.json中輸入mapping信息。假設你的mapping以下：

{
  "test_type": { # 注意，這裏的test_type與json文件名必須一致 "properties": { "name": { "type": "string", "index": "not_analyzed" }, "age": { "type": "integer" } } } }

步驟3 在$ES_HOME/config/路徑下建立mappings/index_test子目錄，這裏的index_test目錄名必須與咱們要創建的索引名一致。將test_type.json文件拷貝到index_tes目錄下。

步驟4 建立index_test索引。操做以下：

curl -XPUT "localhost:9200/index_test" # 注意，這裏的索引名必須與mappings下新建的index_test目錄名一致

這樣咱們就建立了一個新的索引，而且使用了test_type.json所定義的mapping做爲索引的mapping。就是這麼簡單方便！

（2）刪除mapping。

curl -XDELETE 'localhost:9200/index_test/_mapping/test_type'

（3）查看索引的mapping。

curl -XGET 'localhost:9200/index_test/_mapping/test_type'

更多的mapping相關操做參加官網文檔。

文檔（document）相關API

（1）新增一個文檔。

curl -XPUT 'localhost:9200/index_test/test_type/1?pretty' -d ' # 這裏的pretty參數的做用是使得返回的json顯示地更加好看。1是文檔的id值（惟一鍵）。 { "name": "zhangsan", "age" : "12" }'

（2）更新一個文檔

curl -XPOST 'localhost:9200/index_test/test_type/1?pretty' -d ' # 這裏的1必須是索引中已經存在id，不然就會變成新增文檔操做 { "name": "lisi", "age" : "12" }'

（3）刪除一個文檔

curl -XDELETE 'localhost:9200/index_test/test_type/1?pretty' # 這裏的1必須是索引中已經存在id

（4）查詢單個文檔

curl -XGET 'localhost:9200/index_test/test_type/1?pretty'

上面的操做僅僅查詢id爲1的一條文檔，這樣看彷佛ES的查詢也太弱了。前面已經說過了，查詢操做是ES中的核心，是其立身的根本。可是本文的重點並不在這裏，爲了防止文章的篇幅過長，以後將專本介紹ES中的查詢操做。

源代碼中提供的Rest API文檔結構

ES的源代碼託管在Github上。將源代碼下載下來以後，裏面有一個文件夾專門存放ES中絕大部分的Rest API。有了這些文檔，就沒必要每次都要到官網上查詢接口文檔了（PS：ES的官網真的很慢）。
下面以cat.health.json文件爲例簡單地介紹這些Rest API文檔的結構。一旦結構搞清楚了，文檔看起來就比較順心，ES用起來就更加駕輕就熟了！

{
  "cat.health": { "documentation": "http://www.elastic.co/guide/en/elasticsearch/reference/master/cat-health.html", # 該文檔對應的官方站點 "methods": ["GET"], "url": { # url部分可選 "path": "/_cat/health", "paths": ["/_cat/health"], "parts": { }, "params": { "local": { "type" : "boolean", "description" : "Return local information, do not retrieve the state from master node (default: false)" }, "master_timeout": { "type" : "time", "description" : "Explicit operation timeout for connection to master node" }, "h": { "type": "list", "description" : "Comma-separated list of column names to display" }, "help": { "type": "boolean", "description": "Return help information", "default": false }, "ts": { "type": "boolean", "description": "Set to false to disable timestamping", "default": true }, "v": { "type": "boolean", "description": "Verbose mode. Display column headers", "default": true } } }, "body": null } }

上面文檔接口所對應的Reqeust操做以下：

curl -XGET "localhost:9200/_cat/health?v" -d 'body'

該操做命令可劃分爲5個部分，下面把這5個部分與文檔對應起來。經過這個例子，就能夠在閱讀其餘文檔後，使用正確的操做了。

第1部分（-XGET）：對應文檔中methods所包含的GET操做。
第2部分（localhost:9200）：是ES服務端所在主機的hostname和port。
第3部分（/_cat/health）：對應文檔中的url。其中path是最簡單的url；paths是除了path以外的其餘url；parts描述和解釋paths裏面的url的可變部分（一般用{}包裹，如{index}）。
第4部分v：表示參數，對應文檔中的params。像「v」這種boolean類型的參數，不須要特地指定其布爾值（true或者false），出現即表示true，不然爲false。
第5部分body：表示要傳遞的數據主體,對應文檔中的body。若是body裏面指明「required=true」,則表示必須傳入body數據。具體body裏面須要傳怎樣的數據，則能夠訪問文檔中的documentation字段所指明的官方站點進行查詢。

總結

本文重點介紹了ES中的一些經常使用Rest API的用法，並在開始部分簡單地介紹了一些基礎知識（Rest和mapping）。掌握了這些API的調用，就能夠利用ES完成簡單的應用程序了。固然，ES的API遠不止這些，若是想要更加深刻地瞭解ES的使用及其內部原理，建議先仔細地閱讀ES的官網文檔。而後下載其源代碼進行研究。

想進階的同窗，請參考：

Elasticsearch: 權威指南

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。