京東電商場景下的AI實踐 - 基於關鍵詞自動生成摘要

Alt

導言
過去幾十年間,人類的計算能力得到了巨大提高;隨着數據不斷積累,算法日益先進,咱們已經步入了人工智能時代。確實,人工智能概念很難理解,技術更是了不得,背後的數據和算法很是龐大複雜。不少人都在疑惑,如今或將來AI將會有哪些實際應用呢?
其實,關於AI的實際應用以及所帶來的商業價值並無那麼的「玄幻」,不少時候就已經在咱們的身邊。接下來,【AI論文解讀】專欄將會經過相關AI論文的解讀,由深刻淺地爲你們揭祕,AI技術是如何對電商領域進行賦能,以及相關的落地與實踐。 人工智能技術在電商領域,有着豐富的應用場景。應用場景是數據入口,數據經過技術獲得提煉,反過來又做用於技術,兩者相輔相成。

京東基於天然語言理解與知識圖譜技術,開發了商品營銷內容AI寫做服務。並將此項技術應用到了京東商城【發現好貨】頻道中。算法

Alt
京東【發現好貨】頻道網絡

經過AI創做的數十萬商品營銷圖文素材,不只填補了商品更新與達人寫做內容更新之間的巨大缺口,也提高了內容頻道的內容豐富性。框架

同時,AI生成內容在曝光點擊率、進商詳轉化率等方面其實都表現出了優於人工創做營銷的內容。機器學習

接下來讓咱們讓我經過解讀入選 AAAI 2020 的論文來一塊兒來看看,如何經過AI來實現針對不一樣羣體採用不一樣營銷策略及不一樣風格的營銷文案從而提升營銷轉化率的。性能


自動文本摘要(簡稱「自動文摘」)是天然語言處理領域中的一個傳統任務,其提出於 20 世紀 50 年代。自動文摘任務的目標是對於給定的文本,得到一段包含了其中最重要信息的簡化文本。經常使用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘經過提取給定文本中已存在的關鍵詞、短語或句子組成摘要;生成式自動文摘經過對給定文本創建抽象的語意表示,利用天然語言生成技術,生成摘要。學習

本文所介紹的是基於關鍵詞指導的生成式句子摘要方法,該方法融合了抽取式自動文摘和生成式自動文摘,在Gigaword句子摘要數據集上與對比模型相比,取得了更好的性能。測試

Alt

論文連接:http://box.jd.com/sharedInfo/B2234BB08E365EEC編碼

Alt

生成式句子摘要(Abstractive Sentence Summarization)任務的輸入是一個較長的句子,輸出是該輸入句子的簡化短句。人工智能

咱們注意到,輸入句子中的一些重要詞語(即關鍵詞)爲摘要的生成提供了指導線索。另外一方面,當人們在爲輸入句子創做摘要時,也每每會先找出輸入句子中的關鍵詞,而後組織語言將這些關鍵詞串接起來。最終,生成內容不只會涵蓋這些關鍵詞,還會確保其流暢性和語法正確性。咱們認爲,相較於純粹的抽取式自動文摘和生成式自動文摘,基於關鍵詞指導的生成式自動文摘更接近於人們創做摘要時的習慣。spa

Alt
圖1:輸入句和參考摘要之間的重疊關鍵詞(用紅色標記)涵蓋了輸入句的重要信息,咱們能夠根據從輸入語句中提取的關鍵字生成摘要

咱們舉一個簡單的句子摘要的例子。如圖1所示,咱們能夠大體將輸入句子和參考摘要的重疊的詞(停用詞除外)做爲關鍵詞,這些重疊的詞語覆蓋了輸入句子的要點。例如,咱們經過關鍵詞「世界各國領導人」「關閉」和「切爾諾貝利」 ,能夠獲取輸入句子的主旨信息,即「世界各國領導人呼籲關閉切爾諾貝利」,這與實際的參考摘要 「世界各國領導人敦促支持切爾諾貝利核電站關閉計劃」是相吻合的。這種現象在句子摘要任務中很常見:在Gigaword句子摘要數據集上,參考摘要中的詞語超過半數會出如今輸入句子中。

Alt

句子摘要任務的輸入爲一個較長的句子,輸出是一個簡短的文本摘要。咱們的動機是,輸入文本中的關鍵詞能夠爲自動文摘系統提供重要的指導信息。首先,咱們將輸入文本和參考摘要之間重疊的詞(停用詞除外)做爲Ground-Truth關鍵詞,經過多任務學習的方式,共享同一個編碼器對輸入文本進行編碼,訓練關鍵詞提取模型和摘要生成模型,其中關鍵詞提取模型是基於編碼器隱層狀態的序列標註模型,摘要生成模型是基於關鍵詞指導的端到端模型。關鍵詞提取模型和摘要生成模型均訓練收斂後,咱們利用訓練好的關鍵詞提取模型對訓練集中的文本抽取關鍵詞,利用抽取到的關鍵詞對摘要生成模型進行微調。測試時,咱們先利用關鍵詞提取模型對測試集中的文本抽取關鍵詞,最終利用抽取到的關鍵詞和原始測試文本生成摘要。

一、多任務學習

文本摘要任務和關鍵詞提取任務在某種意義上很是類似,都是爲了提取輸入文本中的關鍵信息。不一樣點在於其輸出的形式:文本摘要任務輸出的是一段完整的文本,而關鍵詞提取任務輸出的是關鍵詞的集合。咱們認爲這兩個任務均須要編碼器可以識別出輸入文本中的重要信息的能力。所以,咱們利用多任務學習框架,共享這兩個任務編碼器,提高編碼器的性能。

二、基於關鍵詞指導的摘要生成模型

咱們受Zhou等人工做[1]的啓發,提出了一種基於關鍵詞指導的選擇性編碼。具體來講,因爲關鍵詞含有較爲重要的信息,經過關鍵詞的指導,咱們構建一個選擇門網絡,其對輸入文本的隱層語義信息進行二次編碼,構造出一個新的隱層。基於這個新的隱層進行後續的解碼。

咱們的解碼器基於Pointer-Generator網絡[2],即融合了複製機制的端到端模型。對於Generator模塊,咱們提出直連、門融合和層次化融合的方式對原始輸入文本和關鍵詞的上下文信息進行融合;對於Pointer模塊,咱們的模型能夠選擇性地將原始輸入和關鍵詞中的文本複製到輸出摘要中。

Alt

一、數據集

在本次實驗中,咱們選擇在Gigaword數據集上進行實驗,該數據集包含約380萬個訓練句子摘要對。咱們使用了8000對做爲驗證集,2000對做爲測試集。

二、實驗結果

表1顯示了咱們提出的模型比沒有關鍵詞指導的模型表現更好。咱們測試了不一樣的選擇性編碼機制,分別是輸入文本的自選擇,關鍵詞選擇和互選擇,實驗結果顯示互選擇的效果最佳;對於Generator模塊,咱們發現層次化融合的方式要優於其餘兩種融合方式;咱們的雙向Pointer模塊比原始的僅能從輸入文本中複製的模型表現更好。

Alt
表1

本文致力於生成式句子摘要的任務,即如何將一個長句子轉換成一個簡短的摘要。咱們提出的模型能夠利用關鍵詞做爲指導,生成更加優質的摘要,得到了比對比模型更好的效果。

1)經過採用了多任務學習框架來提取關鍵詞和生成摘要;

2)經過基於關鍵字的選擇性編碼策略,在編碼過程當中獲取重要的信息;

3)經過雙重注意力機制,動態地融合了原始輸入句子和關鍵詞的信息;

4)經過雙重複制機制,將原始輸入句子和關鍵詞中的單詞複製到輸出摘要中。

在標準句子摘要數據集上,咱們驗證了關鍵詞對句子摘要任務的有效性。

註釋:

[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.


在上一篇專欄文章中,咱們爲你們詳細介紹了京東商城是如何在現有基礎上進行更進一步的技術探究與創新,從而有效提高電商的營銷轉化率的。詳情可點擊下方進行查看👇👇👇

京東商城背後的AI技術能力揭祕 - 基於關鍵詞自動生成摘要

京 東 AI 研 究 院
京東AI研究院專一於持續性的算法創新,多數研究將由京東實際的業務場景需求爲驅動。研究院的聚焦領域爲:計算機視覺、天然語言理解、對話、語音、語義、機器學習等實驗室,已逐步在北京、南京、成都、硅谷等全球各地設立職場。

Alt

Alt

相關文章
相關標籤/搜索