針對商品標題冗長問題，阿里工程師怎麼解決？

時間 2019-12-04

原文原文鏈接

阿里妹導讀：電商平臺中，商品標題是用戶認知商品的第一渠道。爲了更好地描述商品屬性，吸引買家注意，商家每每會在標題中堆砌大量冗餘詞，致使標題過長沒法完整展現，給APP端用戶帶來很差的體驗。如何在不影響商品成交轉化率的前提下，將長標題變成短標題？本文將帶你找到答案。算法

摘要

在淘寶、天貓等電商平臺，商家爲了搜索引擎優化(SEO)，撰寫的商品標題一般比較冗餘，尤爲是在APP端等展現空間有限的場景下，過長的商品標題每每不能徹底顯示，只能進行截斷處理，嚴重影響用戶體驗。如何將原始商品標題壓縮到限定長度內，而不影響總體成交是一個極具挑戰的任務。網絡

以往的標題摘要方法每每須要大量的人工預處理，成本較高，而且未考慮電商場景下對點擊率、轉化率等指標的特殊需求。基於此，咱們提出一種利用用戶搜索日誌進行多任務學習的商品標題壓縮方法。框架

該方法同時進行兩個Sequence-to-Sequence學習任務：主任務基於Pointer Network模型實現從原始標題到短標題的抽取式摘要生成，輔任務基於帶有注意力機制的encoder-decoder模型實現從原始標題生成對應商品的用戶搜索query。兩個任務之間共享網絡編碼參數，訓練過程當中對二者在原始標題上的注意力分佈進行聯合優化，使得兩個任務對於原始標題中重要信息的關注儘量一致。函數

離線人工評測和在線實驗證實經過多任務學習方法生成的商品短標題既保留了原始商品標題中的核心信息又能透出用戶搜索query信息，保證成交轉化不受影響。學習

研究背景

商品標題是賣家和買家在電商平臺溝通的重要媒介，用戶在搜索入口輸入Query檢索，在搜索結果頁(SRP)瀏覽商品列表，選擇目標商品，最終完成購買。在整條購物成交鏈路中，商品標題、商品描述、商品圖片等各類信息共同影響着用戶的購買決策，信息量豐富而不冗長的標題能大大提高終端用戶體驗。測試

根據第 40 次《中國互聯網絡發展情況統計報告》顯示，截止2017年6月，我國手機網民規模已經達到7.24 億，網民使用手機上網的比例由 2016 年末的95.1% 提高至 96.3%。愈來愈多的在線購買行爲已經從PC端轉移到無線端 (APP)，而且二者之間的差距還在進一步擴大，所以各大電商平臺的資源也在往各自APP端傾斜。PC和APP最明顯的區別在於顯示屏幕尺寸，一般智能手機顯示屏在 4.5 到 5.5 寸之間，遠小於PC的屏幕尺寸，對算法和產品設計都有新的要求。優化

當前淘系商品標題主要由商家負責撰寫，爲了提升搜索召回和促進成交，商家每每會在標題中堆砌大量冗餘詞，當用戶在手機端進行瀏覽的時候，過長的商品標題因爲屏幕尺寸限制顯示不全，只能作截斷處理，嚴重影響用戶體驗。搜索引擎

如圖1所示，在SRP頁，商品原始標題顯示不完整，只能顯示14個字左右的短標題，用戶若是想獲取完整標題，還須要進一步點擊進入商品詳情頁，商品原始標題包含近30個字。此外，在個性化推送和推薦場景中，商品短標題做爲信息主體，對長度也有必定限制，如何使用盡量短的文本體現商品的核心屬性，引發用戶的點擊和瀏覽興趣，提升轉化率，是值得深刻研究的問題。編碼

圖1. 用戶搜索「碎花裙長袖女」，搜索結果頁商品原始標題過長沒法完整顯示，只有點擊進入詳情頁才能看到完整標題。spa

已有方法介紹

文本摘要（壓縮）是天然語言處理中重要研究方向之一。按摘要的生成方式，能夠分爲抽取式和生成式兩種。顧名思義，抽取式方法生成的摘要句子和詞均從原文中抽取，而生成式方法更爲靈活，摘要中的句子和詞並不要求必定從原文中抽取。傳統的抽取式摘要方法大體能夠分爲貪心方法、基於圖的方法和基於約束的優化方法等。近年來神經網絡的方法也被應用到文本摘要領域並取得顯著進步，尤爲是生成式摘要方法。業界已有方法都是以壓縮文章長度爲優化目標實現文本的摘要，電商場景下除了文本壓縮率還有其餘考量，如何在商品標題長度精簡的同時又不影響總體的成交轉化率成爲一個業界難題。

方法介紹

如圖2所示，本文提出的多任務學習方法包含兩個Sequence-to-Sequence任務，主任務是商品標題壓縮，由商品原始標題生成短標題，採用Pointer Network模型，經過attention機制選取原始標題的關鍵字輸出；輔助任務是搜索query生成，由商品原始標題生成搜索query，採用帶attention機制的encoder-decoder模型。兩個任務共享編碼網絡參數，並對二者的對原始標題的注意力分佈進行聯合優化，使得兩個任務對於原始標題中重要信息的關注儘量一致。輔助任務的引入能夠幫助主任務更好地從原始標題中保留更有信息量、更容易吸引用戶點擊的詞。相應地，咱們爲兩個任務構建訓練數據，主任務使用的數據爲女裝類目下的商品原始標題和手淘推薦頻道達人改寫的商品短標題，輔助任務使用的數據爲女裝類目下的商品原始標題和對應的引導成交的用戶搜索query。

圖2. 多任務學習框架, 兩個Seq2Seq任務共享同一個encoder

主要貢獻

本文的多任務學習方法進行商品標題壓縮，生成的商品短標題在離線自動評測、人工評測以及在線評測中均超過傳統抽取式摘要方法。

端到端的訓練方式避免了傳統方法的大量人工預處理以及特徵工程。

多任務學習中的Attention分佈一致性設置使得最終生成的商品短標題中能透出原始標題中重要的詞，尤爲是能引導成交的核心詞，對於其餘電商場景也有重要意義。

實驗結果

咱們使用了淘寶女裝類目下的商品標題數據進行了實驗，對比了五種不一樣的文本摘要方法。第一種是baseline方法，根據目標長度直接截斷方法（Trunc.）；第二種是經典的整數線性規劃方法（ILP），須要對標題進行分詞、NER、TermWeighting等預處理；第三種是基於Pointer Network實驗的encoder-decoder抽取式方法（Ptr-Net）；第四種是多任務學習方法，直接將兩個子任務的損失函數相加做爲總體損失函數進行優化（Vanilla-MTL）；第五種是本文提出的考慮Attention分佈一致性的多任務學習方法（Agree-MTL）。

不一樣方法的自動評價對比

表1. 不一樣文本摘要方法產生的商品短標題自動評測結果

經過計算生成的短標題和參考短標題之間的三種ROUGE分做爲自動評測結果，表1對比了不一樣的文本摘要方法。本文提出的多任務學習方法顯著超過了其餘幾種方法。

不一樣方法的人工評價對比

表2. 不一樣方法產生的商品短標題的人工評測結果

表2展現了不一樣方法產生的商品短標題人工評測對比。因爲電商場景下商品的核心產品詞比較敏感，因此在常見的可讀性(Readability)和信息完整性(Informativeness)指標之外，咱們還比較了不一樣方法產生的短標題中核心產品詞是否準確(Accuracy)。從表2結果看，本文提出的方法在三個指標上均超過其餘方法。

除了離線的自動評測和人工評測，咱們還在真實線上環境中進行了AB測試，相比線上原來的ILP壓縮方法，本文提出的多任務學習方法在CTR和CVR兩個指標上分別有2.58%和1.32%的提高。

圖3給出了不一樣方法產生的商品短標題示例。受預處理結果影響，直接截斷和ILP兩種baseline方法生成的短標題流暢度和可讀性較差，而Ptr-Net和多任務學習屬於Sequence-to-Sequence 方法，生成的短標題在可讀性上優於兩種baseline。圖3左側例子說明，本文方法生成的短標題會透出用戶高頻搜索query中出現過的詞（用戶搜索query中多使用英文品牌名而非中文品牌名），更容易促進成交。

圖3. 不一樣方法產生的短標題示例

總結

因爲商家SEO過分，C2C電商平臺的商品標題一般長度過長且比較冗餘且，沒法在APP端完整展現。爲了解決這個問題，本文使用抽取式摘要方法對過長的商品標題進行壓縮。

傳統的摘要方法僅在保持原標題語義的狀況下實現標題的壓縮，未考慮電商場景下對壓縮後商品點擊率和成交轉化率的影響。電商平臺累積了大量用戶搜索query和商品成交信息，利用這部分數據咱們能夠更有針對性地對原始長標題進行壓縮。

所以，咱們提出一種多任務學習的標題壓縮方法，包含兩個序列學習子任務：其中主任務是基於Pointer Network模型實現的從原始標題到短標題的抽取式摘要生成，輔任務是基於帶有Attention機制的encoder-decoder模型實現的從原始標題生成對應商品的用戶搜索query，兩個任務之間共享編碼參數，使得兩個子任務在原始標題上的Attention分佈儘量一致，對二者的注意力分佈進行聯合優化，最終使得主任務生成的短標題在保留原始商品標題中的核心信息的同時，更傾向於透出能促進成交轉化的關鍵詞。

離線人工評測和在線實驗證實使用本文方法在保證不影響成交轉化率的前提下，生成的短標題在可讀性、信息完整度、核心產品詞準確率上都超過了傳統摘要方法。

本文做者：王金剛，田俊峯，裘龍(Onehome)，李生，郎君，司羅，蘭曼(華東師大)

閱讀原文

本文來自雲棲社區合做夥伴「阿里技術」，如需轉載請聯繫原做者。