Elasticsearch 技術分析(三): 索引別名Aliases問題

業務問題

業務需求是不斷變化迭代的,也許咱們以前寫的某個業務邏輯在下個版本就變化了,咱們可能須要修改原來的設計,例如數據庫可能須要添加一個字段或刪減一個字段,而在搜索中也會發生這件事,即便你認爲如今的索引設計已經很完美了,在生產環境中,仍是有可能須要作一些修改的,須要添加映射字段或者須要修改字段類型等等。數據庫

數據庫中咱們能夠直接修改原來的表設計語句,前提是須要作好數據遷移。可是在 Elasticsearch 中就沒那麼簡單了。儘管能夠增長新的類型到索引中,或者增長新的字段到類型中,可是不能添加新的分析器或者對現有的字段作改動。若是你那麼作的話,結果就是那些已經被索引的數據就不正確,搜索也不能正常工做。針對這個問題必須從新創建索引。json

別名定義

從新創建索引的問題是必須更新應用中的索引名稱,索引別名就是用來解決這個問題的!數組

假設咱們有個學生的原始索引 student_index_v1,咱們給它起個別名 student_index,程序中也是用別名 student_index 進行搜索,當咱們的業務需求發生改變須要修改索引的時候,咱們從新建立個索引 student_index_v2,同時將別名 student_index 指向新的索引 student_index_v2,同時將 student_index_v1 的數據遷移到新的 student_index_v2,這樣咱們就能夠作到在零停機下從舊索引切換到新索引。app

索引別名就像一個快捷方式或軟鏈接,能夠指向一個或多個索引,也能夠給任何一個須要索引名的API來使用,並且別名不能與索引同名。設計

別名帶給咱們極大的靈活性,容許咱們作下面這些:code

  • 在運行的集羣中能夠無縫的從一個索引切換到另外一個索引。
  • 給多個索引分組。
  • 給索引的一個子集建立視圖。

別名管理

別名還能夠映射到某個索引也能夠映射到多個索引。別名還能夠與篩選器關聯,篩選器將在搜索和路由值時自動應用,別名不能與索引同名。索引

Elasticsearch 中有兩種方式管理別名: _alias 用於單個操做, _aliases 用於執行多個原子級操做。ip

單個索引別名路由

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test1", "alias" : "alias1" } }
    ]
}

刪除別名rem

POST /_aliases
{
    "actions" : [
        { "remove" : { "index" : "test1", "alias" : "alias1" } }
    ]
}

重命名別名

POST /_aliases
{
    "actions" : [
        { "remove" : { "index" : "test1", "alias" : "alias1" } },
        { "add" : { "index" : "test2", "alias" : "alias1" } }
    ]
}

重命名別名是一個簡單的刪除而後指向新的索引。這個操做是原子性的,所以不須要擔憂短期內的別名不指向一個索引。

將別名與多個索引關聯

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test1", "alias" : "alias1" } },
        { "add" : { "index" : "test2", "alias" : "alias1" } }
    ]
}

亦能夠經過索引數組的方式來實現

POST /_aliases
{
    "actions" : [
        { "add" : { "indices" : ["test1", "test2"], "alias" : "alias1" } }
    ]
}

對於上面的示例,還可使 glob pattern 將別名關聯到擁有公共名稱的多個索引:

POST /_aliases
{
    "actions" : [
        { "add" : { "index" : "test*", "alias" : "all_test_indices" } }
    ]
}

Filtered Aliases

過濾器別名提供了一個簡單的方法對同一個索引來建立不一樣的「視圖」。過濾器可以使用Query DSL來定義而且被應用到全部的搜索,統計,經過查詢刪除和其它相似的行爲。

爲了建立一個帶過濾器的別名,首先須要確保映射的字段已經存在於mapping中。

PUT /test1
{
  "mappings": {
    "_doc": {
      "properties": {
        "user" : {
          "type": "keyword"
        }
      }
    }
  }
}

而後咱們能夠建立一個在user字段上帶過濾器的別名。

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test1",
                 "alias" : "alias2",
                 "filter" : { "term" : { "user" : "kimchy" } }
            }
        }
    ]
}

成功則返回

{"acknowledged":true}

這樣設置以後,咱們經過 test1 這個 index 直接進行搜索能夠看到索引的所有文檔,可是經過 alias2 這個別名就只能看到符合過濾器過濾後的結果了,即只有一個 user 爲 "kimchy" 的結果。

Routing

能夠將路由值與別名關聯。這個特性能夠與過濾別名一塊兒使用,以免沒必要要的碎片操做。

何爲路由?
全部的文檔 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一個叫作 routing 的路由參數 ,經過這個參數咱們能夠自定義文檔到分片的映射。一個自定義的路由參數能夠用來確保全部相關的文檔---例如全部屬於同一個用戶的文檔都被存儲到同一個分片中。

如下命令建立一個指向索引 test 的新別名 alias1。建立 alias1 後,全部具備此別名的操做將自動修改成使用值 1 進行路由:

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test",
                 "alias" : "alias1",
                 "routing" : "1"
            }
        }
    ]
}

還能夠爲搜索和索引操做指定不一樣的路由值

POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test",
                 "alias" : "alias2",
                 "search_routing" : "1,2",
                 "index_routing" : "2"
            }
        }
    ]
}

如上例所示,搜索路由(search_routing)可能包含幾個用逗號分隔的多個值,可是 索引路由(index_routing)就只能包含一個值

若是使用路由別名的搜索操做也有路由參數,則使用搜索別名路由和參數中指定的路由的交集。例如,下面的命令將使用「2」做爲路由值。由於搜索操做中有路由參數2,3,而搜索路由設置的是1,2,因此取交集即爲2。

GET /alias2/_search?q=user:kimchy&routing=2,3

別名示例

仍然以上面學生的例子, student_index 是一個指向當前真實索引的別名。真實索引包含一個版本號: student_index_v1 , student_index_v2 等等。

首先,建立索引 student_index_v1 ,而後將別名 student_index 指向它:

PUT /student_index_v1  // 建立索引 student_index_v1 。
PUT /student_index_v1/_alias/student_index  //設置別名 student_index 指向 student_index_v1 。

你能夠檢測這個別名指向哪個索引:

GET /*/_alias/student_index

或哪些別名指向這個索引:

GET /student_index_v1/_alias/*

二者都會返回下面的結果:

{
    "student_index_v1" : {
        "aliases" : {
            "student_index" : { }
        }
    }
}

而後,咱們決定修改索引中一個字段的映射。固然,咱們不能修改現存的映射,因此咱們必須從新索引數據。 首先, 咱們用新映射建立索引 student_index_v2 :

PUT /student_index_v2
{
    "mappings": {
        "my_type": {
            "properties": {
                "tags": {
                    "type":   "string",
                    "index":  "not_analyzed"
                }
            }
        }
    }
}

而後咱們將數據從 student_index_v1 索引到 student_index_v2 ,下面的過程在從新索引你的數據 中已經描述過。一旦咱們肯定文檔已經被正確地重索引了,咱們就將別名指向新的索引。

一個別名能夠指向多個索引,因此咱們在添加別名到新索引的同時必須從舊的索引中刪除它。這個操做須要原子化,這意味着咱們須要使用 _aliases 操做:

POST /_aliases
{
    "actions": [
        { "remove": { "index": "student_index_v1", "alias": "student_index" }},
        { "add":    { "index": "student_index_v2", "alias": "student_index" }}
    ]
}

通過以上幾步操做,你的應用就成功在零停機的狀況下從舊索引遷移到新索引了。其實別名還有更多管理的語法。

文檔遷移

對於新舊索引的文檔數據遷移,字段 _source 的一個優勢是在Elasticsearch中已經有整個文檔。你沒必要從源數據中重建索引,並且那樣一般比較慢。

爲了有效的從新索引全部在舊的索引中的文檔,用 scroll 從舊的索引檢索批量文檔 , 而後用 bulk API 把文檔推送到新的索引中。

對現有數據的這類改變最簡單的辦法就是從新索引:用新的setting建立新的索引並把文檔從舊的索引複製到新的索引。

總結

在你的應用中最好的方式是使用別名而不是索引名。這樣你就能夠在任什麼時候候重建索引。別名的開銷很小,應該普遍使用。本文主要整理自官方文檔。

相關文章
相關標籤/搜索