簡介:達摩院算法專家--徐光偉(昆卡)聚焦在線教育行業的拍照搜題場景,介紹如何應用開放搜索來構建更高搜索性能及搜題準確率的搜題系統,從而助力在線教育行業客戶掌握更高層次用戶體驗的獲客工具。
講師:徐光偉(昆卡)--阿里雲達摩院算法專家算法
視頻地址:https://developer.aliyun.com/live/246649安全
教育搜題解決方案地址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch架構
開放搜索(OpenSearch)是基於阿里巴巴自主研發的大規模分佈式搜索引擎搭建的一站式智能搜索業務開發平臺,經過內置各行業的查詢語義理解、機器學習排序算法等能力,提供充分開放的算法及引擎能力,助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務。併發
其搜索引擎採用阿里自研的整套搜索工程體系-AIOS系統,支撐着阿里系包含淘寶、天貓、lazada、閒魚、優酷、菜鳥、盒馬等所有的搜索場景,在穩定性和工程效率上都是行業領先水平。開放搜索簡介-算法優點機器學習
開放搜索(OpenSearch)在算法上集成達摩院NLP(天然語言處理)團隊的核心技術,NLP Foundations 中的詞法分析、句法分析、語義分析、文本分析、deep learning 技術都處於業界領先。經過對各行業智能語言處理的深刻研究,在開放搜索的行業應用中產品化落地。分佈式
近幾年在線教育行業飛速發展,根據2020中國移動互聯網教育學習APP行業月活用戶規模TOP10的統計,月活前十中針對K12教育的APP有6個,具有搜題場景的APP有5個;說明了搜題功能在教育行業的的重要性。高併發
(數據來源:QuestMobile<2020中國移動互聯網年度大報告>)工具
工具型的產品能力,它是用來幫助產品得到大量的用戶和流量,從而爲其餘的業務提供變現能力。在線教育行業中拍照搜題做爲產品掠取流量最重要的工具,抓住了家長、學生輔導和解題上需求,爲其餘的業務變現提供源源不斷的流量。正是因爲這樣的定位,搜題的準確性和效率變得更加劇要,將直接影響品牌的口碑和用戶粘性。性能
海量題庫學習
客戶的題庫通常都是千萬甚至億級別,並且還在快速持續的增加。同時搜題業務存在比較明顯的高峯現象。在平時的晚上787到8點,尤爲是週末的最後一天或者是節假日的最後一天。QPS存在很明顯的高峯,具有高彈性和低延遲的雲搜索,雲搜索能力就成爲了客戶的首選。
場景豐富
搜題的場景愈來愈豐富,涵蓋不一樣的年級,好比低年級出現比較多的像看圖識字、連線題等,這種須要圖片信息的,還有包含不一樣的學科,如今已有的學科已經超過10個,這些豐富的場景都會對搜索效果產生影響。
算法需求
由於蒐集產品通常只會展示top 3到top5的1個結果,對於準確性的要求極高,同時還會依賴一些多模態和多元的算法能力來解決圖文搜索和多元處理的需求。
案例說明:
搜題場景分詞難點:
解決方法:
什麼是類目預測?
簡單來講,用戶輸入一個query,查詢獲得一批商品,經過計算每個商品所屬的類目與query之間的相關度,只要商品的排序公式中引用了這個相關度,那麼對於這個商品來講,它所屬的類目與query的相關度越高,它的排序公式的計算結果就得到了越高的排序得分,從而這個商品就會排在越前面。
教育行業中的應用
功能介紹:該功能主要分析了查詢中每個詞在文本中的重要程度,並將其量化成權重,權重較低的詞可能不會參與召回。這樣能夠避免當用戶輸入的查詢詞中包含一些權重低的詞時,仍然按用戶輸入的查詢詞限制召回,致使命中結果過少。
功能用途: Query丟詞、改寫、文本相關性分析;
1. 基於用戶行爲生成訓練數據
首先是基於querydock 點擊行爲去構建點擊圖,而後利用vpc 計算法獲得TOM 之間的一個重要度偏訓
2. 詞權重模型訓練
示例:
開放搜索除了已經內置的這些算法能力同時還支持用戶的批量干預::詞典、拼寫糾錯,同義詞,詞權重等;
示例:
系統開放了兩階段排序過程:基礎排序和業務排序,即粗排和精排;基礎排序便是海選,從檢索結果中快速找到質量高的文檔,取出TOP N個結果再按照精排進行精細算分,最終返回最優的結果給用戶。爲了實現更細粒度的排序效果,結合排序表達式(Ranking Formula)能夠爲應用自定義搜索結果排序方式 。
爲何搜題要作多路召回?
教育拍照搜題場景相比網頁/電商的文本搜索有顯著差別:
純文本查詢方案
1. OR邏輯查詢
2. AND邏輯查詢
如何去兼顧計算消耗和搜索準確性那?咱們在此引入了文本向量檢索
文本向量檢索
目標:經過文本向量檢索擴召回,結合AND邏輯查詢,作到latency和計算消耗低於OR邏輯的狀況下準確性更高;
向量召回採用目前最早進的BERT模型,其中針對教育搜題作的特別優化有:
這個圖咱們能夠看到有一項召回,在召回率上已經達到凹邏輯。同時在準確性上如今超出2邏輯3到5個點,總體的召回到數減小40倍的狀況下,latency 能夠下降10倍以上。
效果:
多路召回優點:
文本召回和語義向量召回的結合在搜題場景已經驗證有效,開放搜索的多路召回架構還將有更多的使用空間:圖片向量召回、公式召回、個性化召回。
除了開放搜索內置的向量模型,咱們也將支持客戶本身的向量索引,歡迎客戶和咱們一塊兒深耕搜題算法優化。
案例1:搜題query:"張慧研所指與小磁大概相近的是樂府之音
案例2:搜題Query: 「如圖是由一些相同的小正方體搭成的幾何體從三個不一樣方向看獲得的形狀圖,則搭成這樣的幾何體須要\_\_個小正方體
一、某K12教育客戶: 某在線教育平臺,主打K12教育,用戶數千萬級別,題庫量8千萬左右且持續增長,由自建題庫和第三方題庫兩部分組成,以前經過OCR+自建ES搜索服務實現拍照搜索功能,面臨的主要問題是搜索準確率待優化提高,下降搜索延遲等問題。
客戶反饋:
二、某高職教育客戶:某聚焦在大學生搜題領域的在線教育公司,產品DAU300W,月活1000W,業務高峯期日均搜題PV過億。
客戶反饋:
若是您對搜索與推薦相關技術感興趣,歡迎加入釘釘羣內交流
【開放搜索】新用戶活動:阿里雲實名認證用戶享1個月免費試用
https://free.aliyun.com/product/opensearch-free-trial
本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。