電商行業智能搜索技術原理全解析

簡介:對於電商平臺來講,智能搜索功能是相當重要的。本文剖析電商行業的搜索專屬特色和業務需求,並介紹開放搜索提供的【電商行業模板】智能搜索能力,但願帶給企業更多提高業務轉化的思路和解決方案~

阿里雲開放搜索-電商行業智能搜索解決方案:html

https://www.aliyun.com/page-source//data-intelligence/activity/opensearch算法

1、搜索的業務邏輯

「搜索Query→召回→排序→搜索結果」架構

  當用戶在搜索框輸入一個Query時,系統經過對其語義的理解,召回相關文檔或商品,在經過算法排序,按客戶實際的搜索意圖進行先後排序,最終解決其搜索需求,實現業務轉化。併發

其中【召回】與【排序】對搜索引導的業務目標最爲重要。app

2、天然語言處理技術(NLP)在搜索上的應用

1. 概念介紹

   想實現搜索引擎效果的優化,就必定要對天然語言處理技術有必定的瞭解,由於用戶輸入一個Query,從學術角度解讀,天然語言智能研究實現了人與計算機之間用語言進行有效通訊,它是融合語言學、心理學、計算機科學、數學、統計學於一體的科學。iphone

  天然語言處理被學者譽爲」人工智能皇冠上的明珠「,研究覆蓋了感知智能、認知智能、創造智能這樣的學科,是實現完整人工智能的必要技術。高併發

2. 阿里雲達摩院NLP搜索分析路徑

3、電商搜索的特色

1. 關鍵詞堆砌

例如:楊冪同款夏季連衣裙包郵。性能

2. 詞序對語義影響不大

例如:楊冪同款女夏季連衣裙包郵;女夏季連衣裙包郵楊冪同款。優化

3. 類目預測問題

例如:當用戶查詢「蘋果」時,可能查詢的是水果,也多是手機品牌。搜索引擎

4.查詢召回文檔相關性差

核心詞識別不許確,分詞不許確

5. 搜索引導的業務轉化比重較大

據統計,綜合類電商搜索引導轉化佔比40%以上,垂直類電商搜索引導轉化佔比60%以上。

6. 穩定性要求較高,支持彈性擴容

活動、大促系統QPS多是平時的百倍千倍,須要平滑的擴縮容,保障系統的穩定。

4、電商搜索優化核心功能

1. 分詞(劃重點!)

1.1分詞效果的優化直接影響召回數量,減小無結果率,提升搜索召回質量

例如:

「火鍋九塊九包郵」

  • 效果差的分詞:「火、鍋、9、塊、9、包、郵」;「火鍋、9、塊、9、包郵」
  • 開放搜索的分詞:「火鍋、九塊9、包郵」

「925銀耳飾「

  • 效果差的分詞:「92五、銀耳、銀、耳飾」
  • 開放搜索的分詞:「92五、銀、耳飾」

1.2不一樣的分詞方式直接影響着參與召回的關鍵詞,從而影響召回的準確性

  目前不少開源自建系統難以實現很好的分詞效果,主要緣由是訓練語料的數據量有限,不足以造成能夠不斷打磨深耕的行業數據。尤爲電商行業商品種類豐富,中文字、詞表達的意義多樣,多音字、同義詞又衆多的狀況下,靠自身算法工程師和開發團隊很難實現快速的解決優化,這是一個不斷積累訓練的漫長過程。

2. 命名實體識別

2.1電商搜索-實體識別含義

  對電商Query和標題進行實體詞打標識別,其中包含品牌、品類、品類修飾、型號、款式等類別;

2.2開放搜索實體識別優點

  • 基於淘寶全量數據和知識庫深刻優化電商行業實體識別能力,解決品牌更新快歧義大,品類存在修飾關係,品牌品類搭配關係等問題;

2.3開放搜索實體識別做用

2.3.1做用於query改寫:

開放搜索查詢分析能夠改寫兩個query,第一個query更精準,第二個query減小了參與召回的term,旨在當更精確的召回結果數不足時,用第二個query進行擴大召回。query改寫主要根據實體的重要性,召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。

實現方式

   實體重要性目前分爲高、中、低三檔。其中「品牌、品類」是在高檔,也就是最重要的;其次「風格、款式、顏色、季節、人羣、地點…」處於中檔;最後「尺寸、修飾詞、影響服務、系列、單位…」處於低檔,能夠丟棄不參與召回。

2.3.2與類目預測一塊兒使用

query中不一樣的實體對類目的影響是不同的,所以,當原query沒有類目預測的結果時,會根據必定的規則,去掉和類目意圖無關或者相關度低的詞後,進行類目預測,這對長尾query的類目預測會有很大的幫助.

示例:

楊冪(人名)同款(後綴)春季(時間季節)修身(款式元素)連衣裙(品類)」丟詞後的query按照優先級排序分別爲:

春季修身連衣裙

春季連衣裙
修身連衣裙
連衣裙

系統會按照上述順序依次查詢類目預測的結果

3. 類目預測

3.1舉例說明

  • 用戶搜索「蘋果」多是想要水果的蘋果,也多是蘋果手機;
  • 用戶搜索「華爲」,召回結果按銷量排序,可能銷量最高的「華爲手錶」、「華爲配件」排在前面,實際的搜索意圖」華爲手機「卻排在後面。

    3.2開放搜索類目預測能力

    類目預測是開放搜索裏基於物品/內容的類目信息改善搜索效果的算法功能。根據用戶的查詢詞來預測用戶想要查詢哪一個類目的結果,結合排序表達式,可使得更符合搜索意圖的結果排序更靠前。

基本原理:把歷史上搜過的query收集起來,結合query查詢以後的點擊行爲數據,與類目下的物品信息聯繫起來,使用這些數據來訓練模型,由模型來刻畫query與類目之間的數據規律。

   不一樣用戶搜索意圖不一樣,有些行爲意圖搜索「配件」,有些意圖是搜索「手機」,那根據用戶的行爲數據就能夠經過類目進行判斷,從而在排序效果上實現個性化展現;

4. 排序算法

4.1電商排序常見問題

  • 查詢結果排序不理想:致使點擊率較低,跳出率較高,直接影響業務轉化;
  • 數據缺少時效性:難以平衡優質商品和新發布商品之間的權衡關係;
  • 商家刷排名:部分商家找到排序漏洞,經過關鍵詞堆砌,得到靠前位置,用戶體驗很差;
  • 人力資源緊張:須要專業算法工程師2-3名,很難找到合適的人才。

4.2開放搜索電商排序能力

在應用結構模板和索引結構模板基礎上,提供電商經常使用基礎排序、業務排序表達式,無需額外配置便可知足大部分電商行業排序效果需求,用戶還能夠經過cava腳本定製排序。

5. 人工干預bad case

5.1常見的bad case

  • 「iPhone11」剛上市時,用戶搜索「蘋果/iphone」,最新款產品確定要排在前面,在沒有常規排序算法的時候,就須要類目預測人工干預;
  • 「噴泡」是一款籃球鞋的別稱,並不是主流叫法,全稱是「Air Jordan AirFoamposite系列」,這時就須要經過平時運營積累的專業詞彙可視化同步到開放搜索作查詢語義理解功能的補丁,經過靈活幹預得以解決;
  • 跨境電商有時Query涉及「日文、韓文、泰文」等外語,當咱們的分詞詞典不能很好的分詞優化時,也能夠經過分詞幹預功能解決;
  • 用戶搜索Query「香奈兒氣墊」,默認的實體識別,將「香奈兒」歸類爲「普通詞」;「氣墊」歸類爲「材質」,須要人工干預實體識別,把「香奈兒」干預爲品牌。

5.2開放搜索人工干預功能

  • 內置干預詞典,可在其基礎上添加自定義干預詞典;
  • 支持查詢分析干預詞典(停用詞、拼寫糾錯、同義詞、實體識別、詞權重、類目預測);

6. 搜索引導功能

6.1搜索引導功能業務價值

6.1.1熱搜底紋

  • 熱門query是用戶興趣的風向標,經過分析熱門query把握用戶的興趣走向,對制定運營策略提供決策依據;
  • 給用戶推薦一些優質query,提高業務目標;
  • 用戶推薦熱門query,既提高用戶體驗,又給部分次熱門query增長曝光機會;
  • 經過分析用戶的行爲,結合用戶的興趣來推薦query,想用戶所想提升轉化機會;

image.png

6.1.2下拉提示

  • 提升輸入效率,幫助用戶儘快找到想要的內容,同時減小用戶的查詢次數,減少服務端的壓力;
  • 推薦更優質query;

    image.png

6.2開放搜索搜索引導優點

   內置熱搜、底紋、下拉提示多樣搜索引導算法模型,無需開發系統天天自動訓練模型,對用戶搜索意圖起到重要的引導做用,大大下降後續查詢意圖理解、相關性、排序、運營幹預等環節的調優難度,對提高總體業務目標能夠起到很是好的鋪墊做用。

5、開放搜索電商行業模板

1.搜索架構

開放搜索(OpenSearch)獨創電商行業搜索模板能力,幫助企業快速構建更高水準的搜索服務,帶動業務指數級增加。

2.一鍵配置

內置電商行業搜索能力,配置簡單新手無門檻

3.電商行業模板優點

  • 行業最佳實踐,減小試錯成本

將搭建電商行業搜索的最佳實踐產品化落地,用戶沒必要各方向探索,只需按模板接入便可擁有更優服務;

  • 內置更高質量算法模型,節省訓練成本

用戶從0開始優化搜索,免去大量的數據標註與模型訓練工做,直接內置阿里集團淘系搜索算法能力,節省數十人/月的算法工做;

  • 支持個性化搜索與服務能力

經過引擎側的多路召回能力,實現搜索結果、下拉提示、底紋詞等重要服務千人千面,提高搜索轉化;

  • 架構開放,支持開發者自定義模型實時迴流

支持用戶自行訓練的NLP模型導入進入開放搜索,靈活知足業務開發者需求;

  • 召回引擎性能充分領先

阿里巴巴自研Ha3引擎,處理海量數據、高併發、海量用戶請求,性能數倍優於開源方案;

  • 高時效的行業迭代能力

根據電商行變化,不斷迭代更新原有能力,提供更高時效性的服務保障;

4.電商行業加強版技術核心指標優化

4.1開源搜索與電商行業加強版效果對比

4.2通用版與電商行業加強版能力對比

4.3離線數據處理

單個集羣實時數據同步Tps百萬級;


得到專家指導:

https://survey.aliyun.com/apps/zhiliao/uzhnOt\_g9

電商行業模板配置流程:

https://help.aliyun.com/document\_detail/208651.html

本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。
相關文章
相關標籤/搜索