Elasticsearch系列---全面瞭解Document

時間 2020-01-24

標籤 elasticsearch 系列全面瞭解 document 欄目日誌分析简体版

原文原文鏈接

概要

本篇主要介紹一下document的知識，對document的元數據和基本的語法進行講解。java

document核心元數據

前面入門實戰一節有簡單介紹過document數據示例，此次咱們來詳細瞭解一下它的核心元數據，查詢響應報文以下：數據庫

{
  "_index": "music",
  "_type": "children",
  "_id": "1",
  "_version": 1,
  "found": true,
  "_source": {
    "name": "gymbo",
    "content": "I hava a friend who loves smile, gymbo is his name",
    "language": "english",
    "length": "75"
  }
}

_index元數據

表明一個document存放在哪一個index中，項目約定結構相似的數據放在一個索引，不一樣數據放不一樣索引裏，因此同一個index中document結構基本是相似的，個別document多一個或少一個field，這樣Elasticsearch對磁盤存儲的利用率最高。
每一個index有本身獨立的shard存儲文件，與其餘index互不影響。json

命名規範：名稱小寫，不能以'_', '-', 或 '+'開頭。安全

_type元數據

ES 6.0.0以後一個index下面只能有一個type，最先指定是啥就是啥。網絡

命名規範：能夠用'_'開頭，因爲只有一個，官方示例上直接使用'_doc'。數據結構

_id元數據

document的惟一標識，與index一塊兒惟一標識和定位一個document，能夠手動指定，也能夠由ES自動建立。併發

_version元數據

ES內部使用樂觀鎖對document的寫操做進行控制，version版本號最初是1，更新操做成功後自動+1。性能

found元數據

document的搜索標誌，成功是true，未搜索到是false。編碼

_source元數據

裏面是咱們在新增時放在http request body的json串內容，是保存的業務數據，默認Get操做時，會原封不動地所有返回給客戶端。命令行

用Get命令搜索document時，能夠定製返回的結果，在請求的_source中指定想要的field便可，示例命令：

GET /music/children/_search
{
  "query": {
    "match_all" : {}
  },
  "_source": ["name","content"]
}

document id

document的id手動指定與自動生成兩種方式：

手動指定

PUT命令行指定ID時，即手動方式

PUT /music/children/id

自動生成

PUT命令行沒指定ID時，此時ES會自動生成的id，長度爲20個字符，URI安全，base64編碼，GUID，保證不重複。

PUT /music/children

咱們的項目中怎麼選擇ID生成方式呢？
通常來講，看Elasticsearch在系統裏承擔的角色，若是是業務系統，自己有關係型數據完成數據的落地，Elasticsearch的價值就是填補關係型數據的全文搜索的短板，Elasticsearch的數據源頭，自己在帶ID的，這種狀況下應該使用手動指定ID的方式，直接用數據庫存儲數據的ID便可，後續的搜索功能，也很容易與數據庫創建對應關係。例如訂單數據，此時的ID直接使用訂單ID便可，而訂單ID的生成方式，不管是自增ID，雪花ID，對Elasticsearch來說都沒關係，保證惟一性便可。

而自動ID生成的場景，好比有些系統，它沒有關係型數據庫，Elasticsearch可能就是它惟一的數據落地方案，這種數據結構，ID沒有太多的重要性，這時讓Elasticsearch自動生成一個，能夠保存到Elasticsearch便可。

tips: GUID、UUID、COMB概念

UUID：是128位整數(16字節)的通用惟一識別碼 (Universally Unique Identifier)，它是由開放軟件基金會（OSF）定義的一個軟件建構的標準。
GUID：是微軟對UUID這個標準的實現。UUID還有其它各類實現，不止GUID一種。
COMB（combine）型是數據庫特有的一種設計思想，能夠理解爲一種改進的GUID，它經過組合GUID和系統時間，以使其在索引和檢索時有更優的性能。

GUID與UUID的區別，生成的格式不一樣。