在前段時間舉辦的「Search On」活動中,谷歌宣佈,BERT 如今幾乎爲谷歌搜索引擎上的每個基於英文的查詢提供支持。而在去年,這一比例僅爲 10%。
機器之心報道,機器之心編輯部。web
BERT 是谷歌開源的一款天然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。算法
具體到搜索引擎來講,BERT 能夠幫助搜索引擎更好地理解 web 頁面上的內容,從而提升搜索結果的相關性。BERT 模型中創新性的 Transformer 架構是一大亮點。Transformer 處理一個句子中與全部其餘單詞相關的單詞,而不是按順序逐個處理。基於此,BERT 模型就能夠藉助某個單詞先後的詞來考慮其所處的完整語境,這對於理解查詢語句背後的意圖很是有用。網絡
2019 年 9 月,谷歌宣佈將 BERT 用到搜索引擎中,但僅有 10% 的英文搜索結果獲得改善;2019 年 12 月,谷歌將 BERT 在搜索引擎中的使用擴展到 70 多種語言。現在,這家搜索巨頭終於宣佈:幾乎全部英文搜索都能用上 BERT 了。架構
BERT 對於搜索引擎意味着什麼?優化
做爲天然語言處理領域裏程碑式的進展,BERT 爲該領域帶來了如下創新:搜索引擎
- 利用無標籤文本進行預訓練;
- 雙向上下文模型;
- transformer 架構的應用;
- masked 語言建模;
- 注意力機制;
- 文本蘊涵(下一句預測);
- ……
這些特性使得 BERT 對於搜索引擎的優化很是有幫助,尤爲是在消除歧義方面。用上 BERT 以後,對於比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜索引擎將可以理解查詢語句中詞的上下文。用戶能夠用更加天然的方式進行搜索。google
此外,BERT 對於搜索中的指代消解、一詞多義、同形異義、命名實體肯定、本文蘊涵等任務也有很大的幫助。其中,指代消解指的是追蹤一個句子或短語在某個語境或普遍的會話查詢中指代的是誰或什麼東西;一詞多義指同一個詞有多個義項,幾個義項之間有聯繫,搜索引擎須要處理模棱兩可的細微差異;同形異義是指形式相同但意義絕不相同的詞;命名實體肯定是指從許多命名實體中瞭解文本與哪些相關;文本蘊含是指下一句預測。這些問題構成了搜索引擎面臨的常見挑戰。人工智能
在過去的一年,谷歌擴展了 BERT 在搜索引擎中的應用範圍,「搜索引擎營銷之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顧問 Glenn Gabe 等人在推特中介紹了谷歌搜索的最近亮點。spa
在谷歌搜索中,有十分之一的搜索查詢拼寫錯誤。很快,一項新的變革將幫助咱們在檢測和處理拼寫錯誤方面取得比過去五年更大的進步。
另外一個即將到來的變化是,谷歌搜索將可以識別網頁中的單個段落,並將它們處理爲與搜索最相關的段落。咱們預計這會改善 7%的 Google 搜索查詢。
Search On 2020:谷歌能夠索引一個網頁的段落,而不單單是整個網頁。新算法能夠放大一段回答問題的段落,而忽略頁面的其他部分。從下個月開始。
使用人工智能,咱們能夠更好地檢測視頻的關鍵部分,並幫助人們直接跳到感興趣的內容,而不須要創做者手動標記。到今年年末,10% 的谷歌搜索將使用這項技術。
此外,谷歌還表示,他們還應用神經網絡來理解搜索相關的子主題,當你搜索寬泛的內容時,這有助於提供更多樣化的內容。這項服務預計年末推出。3d
參考連接:
https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193