第13屆「國際網絡搜索與數據挖掘會議」(WSDM 2020)於2月3日在美國休斯敦召開,該會議由SIGIR、SIGKDD、SIGMOD和SIGWEB四個專委會共同協調籌辦,在互聯網搜索、數據挖掘領域享有很高學術聲譽。本屆會議論文錄用率僅約15%,而且WSDM從來注重前沿技術的落地應用,每屆大會設有的WSDM Cup環節提供工業界真實場景中的數據和任務用以研究和評測。php
今年的WSDM Cup設有3個評測任務,吸引了微軟、華爲、騰訊、京東、中國科學院、清華大學、臺灣大學等衆多國內外知名機構的參與。美團搜索與NLP部繼去年得到了WSDM Cup 2019第二名後,今年繼續發力,拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜單的第一名。html
本次參與的是由微軟研究院提出的Citation Intent Recognition評測任務,該任務共吸引了全球近600名研究者的參與。本次評測中咱們引入高校合做,參評團隊Ferryman由搜索與NLP部-NLP中心的劉帥朋、江會星及電子科技大學、東南大學的兩位科研人員共同組建。團隊提出了一種基於BERT和LightGBM的多模融合檢索排序解決方案,該方案同時被WSDM Cup 2020錄用爲專欄論文。算法
本次參與的任務一(WSDM Cup 2020 Task 1: Citation Intent Recognition)由微軟研究院發起,任務要求參賽者根據論文中對某項科研工做的描述,從論文庫中找出與該描述最匹配的Top3論文。舉例說明以下:微信
某論文中對科研工做[1]和[2]的描述以下:網絡
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
參賽者須要根據這段科研描述從論文庫中檢索與1相關工做最匹配論文。架構
在本例中:app
與工做[1]最匹配的論文題目應該是:框架
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.
與工做[2]最匹配的論文題目應該是:ide
[2] Relational inductive biases, deep learning, and graph networks.
由上述分析可知,該任務是經典的檢索排序任務,即根據文本Query從候選Documents中找出Top N個最相關的Documents,核心技術包括文本語義理解和搜索排序。函數
本次評測數據分爲論文候選集、訓練集、驗證集和測試集四個部分,各部分數據的表述如表1所示:
對本次評測任務及數據分析能夠發現本次評測存在如下特色:
評測使用的評價指標爲Mean Average Precision @3 (MAP@3), 形式以下:
其中,|U|是須要預測的description總個數,P(k)是在k處的精度,n是paper個數。舉例來講,若是在第一個位置預測正確,得分爲1;第二個位置預測正確,得分爲1/2;第三個位置預測正確,得分爲1/3。
經過對評測數據、任務和評價指標等分析,綜合考量方案的效率和精準性後,本次評測中使用的算法架構包括「檢索召回」和「精準排序」兩個階段。其中,檢索召回階段負責從候選集中高效快速地召回候選Documents,從而縮減問題規模,下降排序階段的複雜度,此階段注重召回算法的效率和召回率;精準排序階段負責對召回數據進行重排序,採用Learning to Rank相關策略進行排序最優解求解。
目標任務:使用高效的匹配算法對候選集進行粗篩,爲後續精排階段縮減候選排序的數據規模。
性能要求:召回階段的方案須要權衡召回覆蓋率和算法效率兩個指標,一方面召回覆蓋率決定了後續精排算法的效果上限,另外一方面單純追求覆蓋率而忽視算法效率則不能知足評測時效性的要求。
檢索召回方案:比勝過程中對比實驗了兩種召回方案,基於「文本語義向量表徵「和「基於空間向量模型 + Bag-of-Ngram」。因爲本任務文本廣泛較長且專有名詞較多等數據特色,實驗代表「基於空間向量模型 + Bag-of-Ngram」的召回方案效果更好,下表中列出了使用的相關模型及其實驗結果(recall@200)。能夠看到相比於傳統的BM25和TFIDF等算法,F1EXP、F2EXP等公理檢索模型(Axiomatic Retrieval Models)能夠取得更高的召回覆蓋率,該類模型增長了一些公理約束條件,例如基本術語頻率約束,術語區分約束和文檔長度歸一化約束等等。
F2EXP定義以下:
其中,Q表示查詢query ,D表示候選文檔,C(t, Q)是詞t在Q中的頻次,|D|表示文檔長度,avdl爲文檔的平均長度,N爲文檔總數,df(t)爲詞t的文檔頻率。
爲了提高召回算法的效果,咱們使用倒排索引技術對數據進行建模,而後在此基礎上實現了F1EXP、DFR、F2EXP、BM2五、TFIDF等多種檢索算法,極大了提高了召回部分的運行效率。爲了平衡召回率和計算成本,最後使用F1EXP、BM2五、TFIDF 3種算法各召回50條結果融合做爲後續精排候選數據,在驗證集上測試,召回覆蓋率能夠到70%。
精排階段基於Learning to Rank的思想進行方案設計,提出了兩種解決方案,一種是基於Pairwise-BERT的方案,另外一種是基於LightGBM的方案,下面分別進行介紹:
1)基於BERT的排序模型
BERT是近年來NLP領域最重大的研究進展之一,本次評測中,咱們也嘗試引入BERT並對原始模型使用Pointwise Approach的模式進行改進,引入Pairwise Approach模式,在排序任務上取得了必定的效果提高。原始BERT 使用Pointwise模式把排序問題看作單文檔分類問題,Pointwise優化的目標是單條Query與Document之間的相關性,即迴歸的目標是label。而Pairwise方法的優化目標是兩個候選文檔之間的排序位次(匹配程度),更適合排序任務的場景。具體來講,對原始BERT主要有兩點改進,以下圖中所示:
改進訓練樣本構造形式:Pointwise模式下樣本是按照<Query,Doc,Label>形式構造輸入,Pairwise模式下樣本按照<Query,Doc1,Doc2>形式進行構造,其中Query與Doc1的匹配程度大於與Doc2的匹配程度。
改進模型優化目標:Pointwise模式下模型使用的Cross Entropy Loss做爲損失函數,優化目標是提高分類效果,而Pairwise模式下模型使用Hing Loss做爲損失函數,優化目標是加大正例和負例在語義空間的區分度。
在基於BERT進行排序的過程當中,因爲評測數據多爲生命科學領域的論文,咱們還使用了SciBERT和BioBERT等基於特定領域語料的預訓練BERT模型,相比Google的通用BERT較大的效果提高。
2)基於LightGBM的排序模型
不過,上面介紹的基於BERT的方案構建的端到端的排序學習框架,仍然存在一些不足。首先,BERT模型的輸入最大爲512個字符,對於數據中的部分長語料須要進行截斷處理,這就損失了文本中的部分語義信息;其次,本任務中語料多來自科學論文,跟已有的預訓練模型仍是存在誤差,這也在必定程度上限制了模型對數據的表徵能力。此外,BERT模型網絡結構較爲複雜,在運行效率上不佔優點。綜合上述三方面的緣由,咱們提出了基於LightGBM的排序解決方案。
LightGBM是微軟2017年提出,比Xgboost更強大、速度更快的模型。LightGBM在傳統的GBDT基礎上有以下創新和改進:
採用Gradient-based One-Side Sampling(GOSS)技術去掉很大部分梯度很小的數據,只使用剩下的去估計信息增益,避免低梯度長尾部分的影響;
採用Exclusive Feature Bundling(EFB)技術以減小特徵的數量;
傳統GBDT算法最耗時的步驟是使用Pre-Sorted方式找到最優劃分點,其會在排好序的特徵值上枚舉全部可能的特徵點,而LightGBM中會使用histogram算法替換了GBDT傳統的Pre-Sorted,犧牲必定精度換取了速度。
LightGBM採用Leaf-Wise生長策略,每次從當前全部葉子中找到分裂增益最大的一個葉子,而後分裂,如此循環。所以同Level-Wise相比,在分裂次數相同的狀況下,Leaf-Wise能夠下降更多的偏差,獲得更好的精度。
基於Light GBM的方案須要特徵工程的配合。在咱們實踐中,特徵主要包括Statistic Semantic Features(包括F1EXP、F2EXP、TFIDF、BM25等)、Distributed Semantic Features(包括Glove、Doc2vec等)和Ranking Features(召回階段的排序序列特徵),而且這些特徵分別從標題、摘要、關鍵詞等多個維度進行抽取,最終構建成特徵集合,配合LightGBM的pairwise模式進行訓練。該方法的優勢是運行效率高,可解釋性強,缺點是特徵工程階段比較依賴人工對數據的理解和分析。
咱們分別對比實驗了不一樣方案的效果,能夠發現不管是基於BERT的排序方案仍是基於LightGBM的排序方案,Pairwise的模式都會優於Pointwise的模式,具體實驗數據如表2所示:
本文主要介紹了美團搜索與NLP部在WSDM Cup 2020 Task 1評測中的實踐方案,咱們構建了召回+排序的總體技術框架。在召回階段引入多種召回策略和倒排索引保證召回的速度和覆蓋率;在排序階段提出了基於Pairwise模式的BERT排序模型和基於LightGBM的排序模型。最終,美團也很是榮幸地取得了榜單第一名的成績。
固然,在對本次評測進行復盤分析後,咱們認爲該任務還有較大提高的空間。首先在召回階段,當前方案召回率爲70%左右,能夠嘗試新的召回方案來提升召回率;其次,在排序階段,還能夠嘗試基於Listwise的模式進行排序模型的訓練,相比Pairwise的模式,Listwise模式下模型輸入空間變爲Query跟所有Candidate Doc,理論上可使模型學習到更好的排序能力。後續,咱們還會再不斷進行優化,追求卓越。
本次評測任務與搜索與NLP部智能客服、搜索排序等業務中多個關鍵應用場景高度契合。目前,咱們正在積極試驗將獲獎方案在智能問答、FAQ推薦和搜索核心排序等場景進行落地探索,用最優秀的技術解決方案來提高產品質量和服務水平,努力踐行「幫你們吃得更好,生活更好」的使命。
[1]Fang H, Zhai C X. An exploration of axiomatic approaches to information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. 2005: 480-487.
[2]Wang Y, Yang P, Fang H. Evaluating Axiomatic Retrieval Models in the Core Track[C]//TREC. 2017.
[3]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[4]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.
[5]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3606-3611.
[6]Chen W, Liu S, Bao W, et al. An Effective Approach for Citation Intent Recognition Based on Bert and LightGBM. WSDM Cup 2020, Houston, Texas, USA, February 2020.
[7]Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[C]//Advances in neural information processing systems. 2017: 3146-3154.
帥朋,美團AI平臺搜索與NLP部。
會星,美團AI平臺搜索與NLP部NLP中心對話平臺負責人,研究員。
仲遠,美團AI平臺搜索與NLP部負責人,高級研究員、高級總監。
美團-AI平臺-搜索與NLP部-NLP中心在北京/上海長期招聘NLP算法專家/研究員、對話平臺研發工程師/技術專家、知識圖譜算法專家,歡迎感興趣的同窗發送簡歷至:tech@meituan.com(郵件標題註明:NLP中心-北京/上海)。
閱讀更多技術文章,請關注微信公衆號-美團技術團隊!