算法專家解讀 | 開放搜索教育搜題能力和實踐

簡介:達摩院算法專家--徐光偉(昆卡)聚焦在線教育行業的拍照搜題場景,介紹如何應用開放搜索來構建更高搜索性能及搜題準確率的搜題系統,從而助力在線教育行業客戶掌握更高層次用戶體驗的獲客工具。

講師:徐光偉(昆卡)--阿里雲達摩院算法專家算法

視頻地址:https://developer.aliyun.com/live/246649安全

教育搜題解決方案地址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch架構

開放搜索簡介-引擎優點

開放搜索(OpenSearch)是基於阿里巴巴自主研發的大規模分佈式搜索引擎搭建的一站式智能搜索業務開發平臺,經過內置各行業的查詢語義理解、機器學習排序算法等能力,提供充分開放的算法及引擎能力,助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務。併發

其搜索引擎採用阿里自研的整套搜索工程體系-AIOS系統,支撐着阿里系包含淘寶、天貓、lazada、閒魚、優酷、菜鳥、盒馬等所有的搜索場景,在穩定性和工程效率上都是行業領先水平。開放搜索簡介-算法優點機器學習

開放搜索(OpenSearch)在算法上集成達摩院NLP(天然語言處理)團隊的核心技術,NLP Foundations 中的詞法分析、句法分析、語義分析、文本分析、deep learning 技術都處於業界領先。經過對各行業智能語言處理的深刻研究,在開放搜索的行業應用中產品化落地。分佈式

教育搜題-業務背景

近幾年在線教育行業飛速發展,根據2020中國移動互聯網教育學習APP行業月活用戶規模TOP10的統計,月活前十中針對K12教育的APP有6個,具有搜題場景的APP有5個;說明了搜題功能在教育行業的的重要性。高併發

(數據來源:QuestMobile<2020中國移動互聯網年度大報告>)工具

工具型的產品能力,它是用來幫助產品得到大量的用戶和流量,從而爲其餘的業務提供變現能力。在線教育行業中拍照搜題做爲產品掠取流量最重要的工具,抓住了家長、學生輔導和解題上需求,爲其餘的業務變現提供源源不斷的流量。正是因爲這樣的定位,搜題的準確性和效率變得更加劇要,將直接影響品牌的口碑和用戶粘性。性能

教育搜題-業務特色

海量題庫學習

客戶的題庫通常都是千萬甚至億級別,並且還在快速持續的增加。同時搜題業務存在比較明顯的高峯現象。在平時的晚上787到8點,尤爲是週末的最後一天或者是節假日的最後一天。QPS存在很明顯的高峯,具有高彈性和低延遲的雲搜索,雲搜索能力就成爲了客戶的首選。

場景豐富

搜題的場景愈來愈豐富,涵蓋不一樣的年級,好比低年級出現比較多的像看圖識字、連線題等,這種須要圖片信息的,還有包含不一樣的學科,如今已有的學科已經超過10個,這些豐富的場景都會對搜索效果產生影響。

算法需求

由於蒐集產品通常只會展示top 3到top5的1個結果,對於準確性的要求極高,同時還會依賴一些多模態和多元的算法能力來解決圖文搜索和多元處理的需求。

開放搜索如何提供精準高效、穩定的一站式搜題解決方案

  • 左邊:用戶拍照題目,通過OCR識別以後的文本,經過中間的開放搜索(OpenSearch )引擎獲得Top 3-5的召回結果進行展現;
  • 右邊:客戶題庫,開放搜索會嚴格保證客戶數據的安全和隱私;
  • 中間:開放搜索(Open Search )引擎部分包含了文檔召回、排序定製和干預功能三大模塊;

開放搜索Query處理流程

查詢語義理解

案例說明:

教育搜題定製分詞器

搜題場景分詞難點:

  1. 英文題目,ocr 識別以後的空格缺失;
  2. 數學題目latex公式表示以後的切分;

解決方法:

  • 針對第一個問題,收集千萬級K12英文語料訓練語言模型,即使對超長的英文連寫也能夠精準切分;
  • 針對第二個問題,利用開放搜索自帶的分詞幹預能力將latex表示中的運算符號預處理;   

類目預測-學科、題型分類

什麼是類目預測?

  簡單來講,用戶輸入一個query,查詢獲得一批商品,經過計算每個商品所屬的類目與query之間的相關度,只要商品的排序公式中引用了這個相關度,那麼對於這個商品來講,它所屬的類目與query的相關度越高,它的排序公式的計算結果就得到了越高的排序得分,從而這個商品就會排在越前面。

教育行業中的應用

  • 結合輸⼊的圖⽚信息和OCR識別以後的結果預測輸⼊題⽬的學科類別、題目類型;
  • 預測各⽂本⽚段的字段類型(題幹描述、選項等等);

詞權重分析

功能介紹:該功能主要分析了查詢中每個詞在文本中的重要程度,並將其量化成權重,權重較低的詞可能不會參與召回。這樣能夠避免當用戶輸入的查詢詞中包含一些權重低的詞時,仍然按用戶輸入的查詢詞限制召回,致使命中結果過少。

功能用途: Query丟詞、改寫、文本相關性分析;

1. 基於用戶行爲生成訓練數據

首先是基於querydock 點擊行爲去構建點擊圖,而後利用vpc 計算法獲得TOM 之間的一個重要度偏訓

2. 詞權重模型訓練

  • 在進行規劃以後獲得訓練數據利用序列標註模型去預測每個特用的權重;
  • 預測標籤(7,4,1), 分值越⾼表⽰term的重要性越⼤, 召回結果更準確;

示例:

Query改寫-干預功能

開放搜索除了已經內置的這些算法能力同時還支持用戶的批量干預::詞典、拼寫糾錯,同義詞,詞權重等;

示例:

  1. OCR識別可能會把一些非題目要素識別進來干擾query分析的結果,這時候可使用詞權重干預的方式保證非題目要素字段被打標成低權重,保證召回和排序效果;
  2. 用戶能夠自定義同義詞來擴召回,例如「立方米」 -> 「噸」;

教育搜題排序定製

系統開放了兩階段排序過程:基礎排序和業務排序,即粗排和精排;基礎排序便是海選,從檢索結果中快速找到質量高的文檔,取出TOP N個結果再按照精排進行精細算分,最終返回最優的結果給用戶。爲了實現更細粒度的排序效果,結合排序表達式(Ranking Formula)能夠爲應用自定義搜索結果排序方式 。

多路召回-語義向量召回

爲何搜題要作多路召回?

教育拍照搜題場景相比網頁/電商的文本搜索有顯著差別:

  • 搜索query特別長:常規檢索term數上限30,搜題須要放到100;
  • 搜索query是由拍照OCR識別以後獲得的文本,關鍵term的識別錯誤會嚴重影響召回排序;

純文本查詢方案

1. OR邏輯查詢

  • 爲了下降無結果率,搜題客戶常見的系統是基於ES默認的OR邏輯,latency高,計算消耗大;
  • OpenSearch也支持OR邏輯,針對latency高能夠經過並行seek的方式優化,但總體計算消耗仍然高;

2. AND邏輯查詢

  • 採用通用的query分析模塊,無結果率高,總體準確性不如OR邏輯;
  • 針對教育領域優化定製的query分析模塊,大幅提升效果,準確性接近OR邏輯;

如何去兼顧計算消耗和搜索準確性那?咱們在此引入了文本向量檢索

文本向量檢索

目標:經過文本向量檢索擴召回,結合AND邏輯查詢,作到latency和計算消耗低於OR邏輯的狀況下準確性更高;

向量召回採用目前最早進的BERT模型,其中針對教育搜題作的特別優化有:

  • BERT模型採用達摩院自研的StructBERT,並針對教育行業定製模型;
  • 向量檢索引擎採用達摩院自研的proxima引擎,準確性和運行速度遠超開源系統;
  • 訓練數據能夠基於客戶的搜索日誌不斷積累,效果持續提高;

這個圖咱們能夠看到有一項召回,在召回率上已經達到凹邏輯。同時在準確性上如今超出2邏輯3到5個點,總體的召回到數減小40倍的狀況下,latency 能夠下降10倍以上。

效果:

  1. 召回率達到OR邏輯
  2. 準確性超出OR邏輯3%-5%
  3. 總體召回doc數量減小40倍,latency下降10倍以上

多路召回-文本向量多路召回

多路召回優點:

   文本召回和語義向量召回的結合在搜題場景已經驗證有效,開放搜索的多路召回架構還將有更多的使用空間:圖片向量召回、公式召回、個性化召回。

   除了開放搜索內置的向量模型,咱們也將支持客戶本身的向量索引,歡迎客戶和咱們一塊兒深耕搜題算法優化。

搜題案例效果展現

案例1:搜題query:"張慧研所指與小磁大概相近的是樂府之音

案例2:搜題Query: 「如圖是由一些相同的小正方體搭成的幾何體從三個不一樣方向看獲得的形狀圖,則搭成這樣的幾何體須要\_\_個小正方體

最佳實踐 – 開放搜索對比開源/自建優點

一、某K12教育客戶: 某在線教育平臺,主打K12教育,用戶數千萬級別,題庫量8千萬左右且持續增長,由自建題庫和第三方題庫兩部分組成,以前經過OCR+自建ES搜索服務實現拍照搜索功能,面臨的主要問題是搜索準確率待優化提高,下降搜索延遲等問題。

客戶反饋:

  • 搜題準確率絕對值提高5%;
  • 延時從100ms-300ms降到穩定50ms;
  • 離線數據同步大於4000TPS;

二、某高職教育客戶:某聚焦在大學生搜題領域的在線教育公司,產品DAU300W,月活1000W,業務高峯期日均搜題PV過億。

客戶反饋:

  • 對比自建系統高峯搜索耗時>2s,開放搜索穩定搜索耗時50ms,同比降低40倍;
  • TOP5題目搜索準確率平均提高2.4%;
  • 搜索無結果率從高於40%下降至不到1%;
  • 業務高峯期秒級平滑擴容,解決高併發搜索需求;
    • *

若是您對搜索與推薦相關技術感興趣,歡迎加入釘釘羣內交流

【開放搜索】新用戶活動:阿里雲實名認證用戶享1個月免費試用

https://free.aliyun.com/product/opensearch-free-trial

本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。
相關文章
相關標籤/搜索