用AI說再見!「辣眼睛」的買家秀

阿里妹導讀:提起買家秀和賣家秀,相信你們腦中會馬上浮現出諸多畫面。同一件衣服在不一樣人、光線、角度下,會呈現徹底不一樣的狀態。運營小二需從大量的買家秀中挑選出高質量的圖片。若是單純靠人工來完成,工做量過於巨大。下面,咱們看看如何使用算法,從海量圖片裏找出高質量內容。算法

說到淘寶優質買家秀內容挖掘,必須從買家秀和賣家秀提及。咱們老是能在賣家秀和買家秀中找到強烈反差,好比這樣:數據庫

這樣:網絡

又或者這樣:學習

(圖片來自網絡)

買家秀和賣家秀對比這麼一言難盡,那還怎麼讓運營小二們愉快地玩耍?出於運營社區的須要,運營的小二們得從當前的買家秀中抽取出一批高質量的內容,做爲社區的啓動數據。spa

找到高質量的買家秀有那麼難嗎?就是這麼難!這不,運營的小二們碰到了如下幾個問題:視頻

買家秀質量參差不齊圖片

淘寶海量的買家秀無疑都很難入得了運營小二們的法眼,以業務維度進行篩選的買家秀,審覈經過率廣泛不足三成。這意味着,在海量的買家秀中,能被運營小二們看對眼的,無疑是百裏挑一。ci

審覈標準嚴苛rem

諮詢了運營小二,他們要求圖片視頻必需要美觀,有調性,背景不凌亂,不得擋臉,光線充足,構圖和諧,不得帶有明顯的廣告意圖,以及等等等等……get

這麼多要求,難怪挑不着!

審覈工做量巨大

因爲運營小二們審覈的買家秀中優質買家秀不多,不得不將大量的時間和精力花費在了審覈低質量買家秀上。

有鑑於此,用機器幫助挖掘優質內容刻不容緩。

優質內容挖掘方案

優質內容挖掘的總體方案以下:

全量UGC(User Generated Content)是指全部含圖或含視頻的買家秀。過審UGC是指最終審覈經過的高質量買家秀,加精UGC是指商家承認的買家秀,普通UGC則是上述兩種狀況之外的其餘買家秀。

咱們的核心目標就是要挖掘出豐富而多樣的優質UGC。

UGC質量評估模型

運營人員在審覈買家秀時,經過綜合判斷買家秀的圖片質量和文本內容等方面的因素,來決定是否審覈經過。這促使咱們直觀地將將問題轉化爲一個分類問題。

一、特徵的選擇

咱們首先採用了UGC的用戶特徵、商品特徵和反饋特徵等統計特徵(詳見下表),經過GBDT模型來預估UGC的內容質量,並初步驗證了將UGC質量評估任務轉化爲分類問題是可行的。

二、分類問題的轉化

一個很是直觀地感覺是,將審覈經過的數據標記爲1,審覈未經過的數據標記爲0,將問題轉化爲二分類問題。但在實際訓練中,咱們發現,將審覈經過的數據標記爲2,將運營審覈未經過(商家已加精)的數據標記爲1,將商家未加精的數據標記爲0,把問題轉爲三分類問題比把問題轉化爲二分類問題獲得了更好的效果。緣由在於,審覈人員在原來的鏈路中只審覈了商家加精的數據,在此基礎上審覈經過與否;而爲數衆多的商家未加精的數據沒有審覈到,所以三分類更貼近於真實場景,所以表現更佳。

經過GBDT模型的訓練,在全量UGC數據中進行預測,挖掘出了約400萬優質UGC。自查後發現,這一批數據能挖掘出部分優質UGC,準確率在50%左右,缺點在於圖片質量每每不夠美觀(即便較爲貼近用戶的生活場景)。

三、圖片語義特徵的引入

在與業務同窗的交流過程當中,咱們發現,業務同窗須要極高質量的UGC內容,以便營造出良好的社區氛圍,讓用戶在洋蔥圈中找到對於美好生活的嚮往,其核心標準就是寧缺毋濫。在充分理解了業務同窗的要求,拿到圖片數據後,對於圖片質量的評估勢在必行。

一個較爲直觀的方案就是,經過CNN模型訓練,進行圖片質量的評估。

增長圖像特徵後,經過對ImageNet預訓練的ResNet50進行fine-tuning,模型表現有了極大提高,與原有鏈路相比,審覈經過率提高了100%以上。

其中含小姐姐的UGC業務同窗的承認程度較高(小姐姐們更樂意曬單,更樂意發買家秀,質量也更高),而針對不含小姐姐的長尾類目,業務同窗認爲主要存在圖片無美感和圖片不相關兩類問題。

圖片無美感的問題主要是因爲,CNN更擅長捕捉圖片的語義信息,而對於美學信息不敏感。

四、美學特徵的引入

在圖片美感方面,目前有一份較爲優秀的數據集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 參見 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。

AVA Database是一個美學相關的數據庫,包含25萬餘張圖片,每張圖片包含語義標註(如天然風光、天空等)、圖片風格標註(如互補色、雙色調等)和圖片美感評分(由數十到數百人評出1-10分)。

在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其網絡結構以下:

其核心思想是,經過AVA數據集提供的圖片風格標籤,學習圖片風格的隱藏層特徵,將圖片風格的隱藏層特徵和圖片通過HSV變換後的特徵結合起來,以AVA數據集提供的圖片美感分爲監督,學習圖片的美感特徵。

在此基礎上,最終在UGC質量審覈模型中採用下述結構評判UGC的質量:

以AVA數據集提供的圖片風格標籤和美感評分進行預訓練,經過Brain-inspiredDeep Network提取圖片的美感特徵;經過ResNet提取圖片的語義特徵;經過深度模型刻畫統計特徵;最後將三種特徵拼接起來綜合預測UGC的質量。

引入美學特徵後,驗證集上模型的準確率、召回率和F1值均獲得了提高,ABTest顯示,與原有模型相比,審覈經過率提高6%以上。

髒數據處理

除了業務同窗提出的問題,在自查過程當中,發現目前挖掘出來的UGC內容中仍有如下髒數據:

一、評論傾向斷定

針對差評UGC,利用現有的組件進行情感分析,發現並不能很好地挖掘出差評評論,容易誤傷。基於此,取過審UGC的評論和UGC中的差評進行訓練,在驗證集上F1值高於0.9,但因爲實際預測的數據不一樣(忽視了中評等),致使容易誤判(如將商品名稱等判斷爲差評)。在此基礎上取過審UGC的評論、UGC好評、中評、差評分爲四檔進行訓練,在驗證集上F1值稍低,但因爲訓練數據更貼近於真實場景,在實際預測中效果更好;目前基本解決了差評UGC的問題,實際自查過程當中,沒有再看見差評UGC。

在實際的模型選擇上,Attn-BiLSTM(帶attention的雙向LSTM)效果好於TextCNN(F1score約相差3%),分析緣由在於:TextCNN的優點主要在於捕捉局部特徵,而不少文本雖然含有吐槽性段落(如批評物流慢等),但總體仍然是對賣家商品的確定。

二、N-Gram過濾

針對套路評價UGC,經過全局比較UGC的文本內容,將被多名用戶重複使用的模板UGC過濾掉。

針對重複評價UGC,經過判斷UGC文本內容中重複的2-gram、3-gram、4-gram,結合文本長度和文本信息熵進行過濾。

三、OCR及圖像Hash過濾

針對牛皮蘚圖片,一部分採用了OCR識別和牛皮蘚識別進行過濾。

針對盜圖、網圖UGC,將圖片表示爲哈希值,經過全局判斷哈希值在不一樣買家、不一樣賣家間的重複次數,進行過濾。在過濾此項的過程當中,咱們也發現,買家秀中盜圖、網絡圖的現象較爲廣泛,不少肉眼看似原創的內容也涉及盜圖和網圖;此項過濾掉了大多數的UGC。

無關圖識別

解決了上述問題後,仍然較爲顯著的問題是無關圖的問題。

無關圖的出現緣由較爲複雜,表現類型也很是多樣;既有上述提到的盜圖和網絡圖,也有用戶隨手拍的風景圖,還包括動漫截圖等各式各樣和商品無關的圖片。

一方面,無關圖以盜圖、表情包、網絡圖等爲主,經過哈希值過濾,可以過濾掉一批無關圖;另外一方面,即便過濾之後,預估仍然存在10%-15%左右的無關圖。這部分無關圖的解決較爲複雜。

目前所採用的方案是,將盜圖、表情包、網絡圖等重複圖片做爲負樣本,將過審UGC圖片做爲正樣本,經過ResNet提取圖片特徵,將類目經過embedding做爲類目特徵,將用戶行爲(發表重複圖的數量和比例)做爲用戶特徵,判斷該UGC的圖片是不是無關圖。

就這樣,你們終於又能愉快地欣賞美美的買家秀了~~

劃重點

在此分享一些心得體會,但願能對你們有幫助:

數據強於特徵,特徵強於模型;貼近真實場景的數據對提高任務表現貢獻巨大;

若是確實缺少數據,不妨嘗試快速標註數千條數據,可能取得超出預期的效果;

對ImageNet等數據集預訓練的模型進行fine-tuning能夠在小數據集每每能取得更好的問題;

經過圖像翻轉、旋轉、隨機裁剪等方法進行數據加強,能夠提高模型泛化能力。



本文做者:曉鴻

閱讀原文

本文來自雲棲社區合做夥伴「 阿里技術」,如需轉載請聯繫原做者。

相關文章
相關標籤/搜索