Google 搜索的即時自動補全功能到底是如何「工做」的？

時間 2019-12-20

原文原文鏈接

本文由 yanglbme 原創，首發於公衆號「 Doocs開源社區」，禁止未受權轉載。

Google 搜索自動補全功能的強大，相信很多朋友都能感覺到，它幫助咱們更快地「補全」咱們所要輸入的搜索關鍵字。那麼，它怎麼知道咱們要輸入什麼內容？它又是如何工做的？在這篇文章裏，我帶你一塊兒看看。git

使用自動補全

Google 搜索的自動補全功能能夠在 Google 搜索應用的大多數位置使用，包括 Google 主頁、適用於 IOS 和 Android 的 Google 應用，咱們只須要在 Google 搜索框上開始鍵入關鍵字，就能夠看到聯想詞了。github

在上圖示例中，咱們能夠看到，輸入關鍵字 juej，Google 搜索會聯想到「掘金」、「掘金小冊」、「絕句」等等，好處就是，咱們無須輸入完整的關鍵字便可輕鬆完成針對這些 topics 的搜索。web

谷歌搜索的自動補全功能對於使用移動設備的用戶來講特別有用，用戶能夠輕鬆在難以鍵入的小屏幕上完成搜索。固然，對於移動設備用戶和臺式機用戶而言，這都節省了大量的時間。根據 Google 官方報告，自動補全功能能夠減小大約 25% 的打字，累積起來，預計天天能夠節省 200 多年的打字時間。是的，天天！算法

注意，本文所提到的「聯想詞」與「預測」，是同一個意思。

基於「預測」而非「建議」

Google 官方將自動補全功能稱之爲「預測」，而不是「建議」，爲何呢？實際上是有充分理由的。自動補全功能是爲了幫助用戶完成他們打算進行的搜索，而不是建議用戶要執行什麼搜索。數據結構

那麼，Google 是如何肯定這些「預測」的？其實，Google 會根據趨勢搜索 trends 給到咱們這些「預測」。簡單來講，哪一個熱門、哪一個搜索頻率高，就更可能推給咱們。固然，這也與咱們當前所處的位置以及咱們的搜索歷史相關。框架

另外，這些「預測」也會隨着咱們鍵入的關鍵字的變動而更改。例如，當咱們把鍵入的關鍵字從 juej 更改成 juex 時，與「掘金」相關的預測會「消失」，同時，與「覺醒」、「決心」相關聯的詞會出現。elasticsearch

爲何咱們看不到某些聯想詞？

若是咱們在輸入某個關鍵字時看不到聯想詞，那麼代表 Google 的算法可能檢測到：函數

這個關鍵字不是熱門字詞；
搜索的字詞太新了，咱們可能須要等待幾天或幾周才能看到聯想詞；
這是一個侮辱性或敏感字詞，這個搜索字詞違反了 Google 的相關政策。更加詳細的狀況，能夠了解 Google 搜索自動補全政策。

爲何咱們會看到某些不當的聯想詞？

Google 擁有專門設計的系統，能夠自動捕獲不適當的預測結果而不顯示出來。然而，Google 天天須要處理數十億次搜索，這意味着 Google 天天會顯示數十億甚至上百億條預測。再好的系統，也可能存在缺陷，不正確的預測也可能隨時會出現。性能

咱們做爲 Google 搜索的用戶，若是認定某條預測違反了相關的搜索自動補全政策，能夠進行舉報反饋，點擊右下角「舉報不當的聯想查詢」並勾選相關選項便可。搜索引擎

如何實現自動補全算法？

目前，Google 官方彷佛並無公開搜索自動補全的算法實現，可是業界在這方面已經有了很多研究。

一個好的自動補全器必須是快速的，而且在用戶鍵入下一個字符後當即更新聯想詞列表。自動補全器的核心是一個函數，它接受輸入的前綴，並搜索以給定前綴開頭的詞彙或語句列表。一般來講，只須要返回少許的數目便可。

接下來，咱們先從一個簡單且低效的實現開始，並在此基礎上逐步構建更高效的方法。

詞彙表實現

一個簡單粗暴的實現方式是：順序查找詞彙表，依次檢查每一個詞彙，看它是否以給定的前綴開頭。

可是，此方法須要將前綴與每一個詞彙進行匹配檢查，若詞彙量較少，這種方式可能勉強行得通。可是，若是詞彙量規模較大，效率就過低了。

一個更好的實現方式是：讓詞彙按字典順序排序。藉助二分搜索算法，能夠快速搜索有序詞彙表中的前綴。因爲二分搜索的每一步都會將搜索的範圍減半，所以，總的搜索時間與詞彙表中單詞數量的對數成正比，即時間複雜度是 O(log N)。二分搜索的性能很好，但有沒有更好的實現呢？固然有，往下看。

前綴樹實現

一般來講，許多詞彙都以相同的前綴開頭，好比 need、nested 都以 ne 開頭，seed、speed 都以 s 開頭。要是爲每一個單詞分別存儲公共前綴彷佛很浪費。

前綴樹是一種利用公共前綴來加速補全速度的數據結構。前綴樹在節點樹種排列一組單詞，單詞沿着從根節點到葉子節點的路徑存儲，樹的層次對應於前綴的字母位置。

前綴的補全是順着前綴定義的路徑來查找的。例如，在上圖的前綴樹種，前綴 ne 對應於從子節點取左邊緣 N 和惟一邊緣 E 的路徑。而後能夠經過繼續遍歷從 E 節點能夠達到的全部葉節點來生成補全列表。在圖中，ne 的補全能夠是兩個分支：-ed 和 -sted。若是在數中找不到由前綴定義的路徑，則說明詞彙表中不包含以該前綴開頭的單詞。