簡介:搜索是電商行業業務轉化中最重要的功能,那你瞭解其中的技術實現原理嗎?一塊兒來了解基於多年淘系全量數據和知識庫深刻優化的電商行業實體識別的能力吧,在查詢分析和類目預測中能帶來哪些優化效果那~
實體識別功能介紹
實體識別,全稱命名實體識別(Named Entity Recognition,簡稱NER),指對電商查詢詞中的具備特定意義的語義實體進行實體詞打標識別其中的品牌、品類、品類修飾、型號、款式等40種類別 。查詢分析根據識別的結果,依據實體類型的權重對查詢詞進行改寫,使得召回的文檔符合查詢的意圖。html
<span class="lake-fontsize-11">類別</span> |
<span class="lake-fontsize-11">普通詞</span> |
<span class="lake-fontsize-11">材質</span> |
<span class="lake-fontsize-11">風格</span> |
<span class="lake-fontsize-11">款式元素</span> |
<span class="lake-fontsize-11">顏色</span> |
<span class="lake-fontsize-11">品牌</span> |
<span class="lake-fontsize-11">功能功效</span> |
<span class="lake-fontsize-11">尺寸規格</span> |
<span class="lake-fontsize-11">品質成色</span> |
<span class="lake-fontsize-11">場景</span> |
<span class="lake-fontsize-11">人羣</span> |
<span class="lake-fontsize-11">套裝</span> |
<span class="lake-fontsize-11">時間季節</span> |
<span class="lake-fontsize-11">型號</span> |
<span class="lake-fontsize-11">新品</span> |
<span class="lake-fontsize-11">系列</span> |
<span class="lake-fontsize-11">營銷服務</span> |
<span class="lake-fontsize-11">地點地域</span> |
<span class="lake-fontsize-11">人名</span> |
<span class="lake-fontsize-11">文娛書文曲</span> |
<span class="lake-fontsize-11">機構實體</span> |
<span class="lake-fontsize-11">影視名稱</span> |
<span class="lake-fontsize-11">遊戲名稱</span> |
<span class="lake-fontsize-11">數字</span> |
<span class="lake-fontsize-11">單位</span> |
<span class="lake-fontsize-11">品類</span> |
<span class="lake-fontsize-11">新詞</span> |
<span class="lake-fontsize-11">修飾</span> |
<span class="lake-fontsize-11">專有名詞</span> |
<span class="lake-fontsize-11">品類修飾詞</span> |
<span class="lake-fontsize-11">符號</span> |
<span class="lake-fontsize-11">前綴</span> |
<span class="lake-fontsize-11">後綴</span> |
<span class="lake-fontsize-11">贈送</span> |
<span class="lake-fontsize-11">否認</span> |
<span class="lake-fontsize-11">代理</span> |
## 開放搜索實體識別優點 基於多年淘系全量數據和知識庫深刻優化電商行業實體識別能力,解決品牌更新快歧義大,品類存在修飾關係,品牌品類搭配關係等問題。解決尤爲在中文上因爲缺少自然分隔符,面臨邊界歧義、語義歧義、嵌套歧義等困難。 ## 實體識別在查詢分析中做用
1.做用於query改寫: 開放搜索查詢分析能夠改寫兩個query,第一個query更精準,第二個query減小了參與召回的term,旨在當更精確的召回結果數不足時,用第二個query進行擴大召回。query改寫主要根據實體的重要性,召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。
實現方式: 實體重要性目前分爲高、中、低三檔。其中「品牌、品類」是在高檔,也就是最重要的;其次「風格、款式、顏色、季節、人羣、地點…」處於中檔;最後「尺寸、修飾詞、影響服務、系列、單位…」處於低檔,能夠丟棄不參與召回。
2.與類目預測一塊兒使用 query中不一樣的實體對類目的影響是不同的,所以,當原query沒有類目預測的結果時,會根據必定的規則,去掉和類目意圖無關或者相關度低的詞後,進行類目預測,這對長尾query的類目預測會有很大的幫助.
示例: 「
楊冪(人名)
同款(後綴)
春季(時間季節)
修身(款式元素)
連衣裙(品類)」丟詞後的query按照優先級排序分別爲: 春季修身連衣裙 春季連衣裙 修身連衣裙 連衣裙 系統會按照上述順序依次查詢類目預測的結果
更多類目預測功能詳介紹:
https://help.aliyun.com/document\_detail/69036.html ## 電商行業加強版實體識別能力再升級 開放搜索打造獨有的行業智能搜索解決方案,推出
電商行業加強版,其中在實體識別能力上進行了再升級,使得實體打標效果更好,能夠更精準的定位用戶搜索意圖知足商品搜索需求。 *
現有框架知識庫更新 基於老模型鏈路從新構建全量知識庫,F1 69 -> 74 *
標註訓練數據,使用神經網絡模型 標註10萬條數據,耗時4個月,BiLSTM-CRF模型,F1 74 -> 78 *
神經網絡模型結合知識庫 技術創新GraphNER框架結合監督模型與知識庫,F1 78 -> 82
## 實體識別干預詞典 業務場景不一樣,實體識別語義也是不一樣的,爲了方便用戶使用,開放搜索提供實體識別干預詞典,供用戶自定義詞的語義,目前實體識別的干預主要包括兩個:一是對實體識別結果自己的干預,二是實體類型重要性的干預。當實體識別的結果不許時,應該經過實體識別的干預詞典的配置來進行干預。經過建立實體識別干預詞典,並在查詢分析中實體識別配置相應的干預詞典,就能夠干預實體識別功能。
例如:業務特殊專有名詞,須要進行實體識別干預。 用戶搜索「
小熊 (Bear)嬰兒指甲刀護理套裝",其中「小熊」「bear」實體識別結果爲:普通詞,但實際業務上「小熊(bear)」是一家母嬰品牌,這時能夠使用干預詞典,設置爲「品牌」,從而影響召回排序的效果。
## 實踐後的搜索性能對比
1. 搜索「荷蘭美素佳兒嬰幼兒奶粉「分詞效果 • Before:「荷蘭 美 素 佳 兒 嬰幼兒 嬰 幼 兒 奶粉 奶 粉」
• After:
「荷蘭(地點地域) 美素佳兒(品牌) 嬰幼兒(人羣) 奶粉(品類)」
2. 搜索「夏季新款涼鞋男童」 • Before:3個召回結果, • After:22個召回結果 **利用實體識別功能:定位搜索關鍵詞
實體識別:「夏季」時間季節,「男童」人羣;「新款"新品;;「涼鞋」品類;**
Query1: 「涼鞋」「夏季」「男童」;
Query2:「涼鞋」
* ## 阿里雲搜索相關產品推薦
開放搜索(OpenSearch):基於阿里巴巴自主研發的大規模分佈式搜索引擎搭建的一站式智能搜索業務開發平臺,目前爲包括淘寶、天貓在內的阿里集團核心業務提供搜索服務支持。經過內置各行業的查詢語義理解、機器學習排序算法等能力,提供充分開放的引擎能力,助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務
瞭解產品詳情:
https://www.aliyun.com/product/opensearch
瞭解更多電商行業搜索解決方案:
https://www.aliyun.com/page-source//data-intelligence/activity/opensearch > 本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。