ES系列9、ES優化聚合查詢之深度優先和廣度優先

時間 2019-11-07

原文原文鏈接

1.優化聚合查詢示例

假設咱們如今有一些關於電影的數據集，每條數據裏面會有一個數組類型的字段存儲表演該電影的全部演員的名字。

{
  "actors" : [
    "Fred Jones",
    "Mary Jane",
    "Elizabeth Worthing"
  ]
}

若是咱們想要查詢出演影片最多的十個演員以及與他們合做最多的演員，使用聚合是很是簡單的：數組

     {
  "aggs" : {
    "actors" : {
      "terms" : {
         "field" : "actors",
         "size" :  10
      },
      "aggs" : {
        "costars" : {
          "terms" : {
            "field" : "actors",
            "size" :  5
          }
        }
      }
    }
  }
}

這會返回前十位出演最多的演員，以及與他們合做最多的五位演員。這看起來是一個簡單的聚合查詢，最終只返回 50 條數據！

可是，這個看上去簡單的查詢能夠垂手可得地消耗大量內存，咱們能夠經過在內存中構建一個樹來查看這個 terms 聚合。 actors 聚合會構建樹的第一層，每一個演員都有一個桶。而後，內套在第一層的每一個節點之下， costar 聚合會構建第二層，每一個聯合出演一個桶。這意味着每部影片會生成 n2 個桶！

2.深度優先和廣度優先原理

Elasticsearch 容許咱們改變聚合的集合模式，就是爲了應對這種情況。 咱們以前展現的策略叫作深度優先，它是默認設置，先構建完整的樹，而後修剪無用節點。 深度優先的方式對於大多數聚合都能正常工做，但對於如咱們演員和聯合演員這樣例子的情形就不太適用。

爲了應對這些特殊的應用場景，咱們應該使用另外一種集合策略叫作廣度優先。這種策略的工做方式有些不一樣，它先執行第一層聚合，再繼續下一層聚合以前會先作修剪。

在咱們的示例中， actors 聚合會首先執行，在這個時候，咱們的樹只有一層，但咱們已經知道了前 10 位的演員！這就沒有必要保留其餘的演員信息，由於它們不管如何都不會出如今前十位中。由於咱們已經知道了前十名演員，咱們能夠安全的修剪其餘節點。修剪後，下一層是基於它的執行模式讀入的，重複執行這個過程直到聚合完成。

要使用廣度優先，只需簡單的經過參數 collect 開啓：

{
  "aggs" : {
    "actors" : {
      "terms" : {
         "field" :        "actors",
         "size" :         10,
         "collect_mode" : "breadth_first"
      },
      "aggs" : {
        "costars" : {
          "terms" : {
            "field" : "actors",
            "size" :  5
          }
        }
      }
    }
  }
}