編者:本文來自攜程攻略社區開發總監李健在攜程技術中心主辦的深度學習Meetup中的主題演講,介紹了深度學習在攻略社區領域的主要應用。關注攜程技術微信公號ctriptech,可獲知更多技術分享信息。html
攜程攻略社區是攜程旗下的旅遊攻略類社區,致力於爲旅行者提供出行指南和資訊服務。依託攜程2.5億用戶總量,社區日活躍用戶超過500萬,並聚集3000萬條真實用戶的旅行和酒店點評,並有40萬篇旅行遊記,2000位知名旅行達人。面對數據庫中浩如煙海的信息,咱們如何能去其糟粕,留其精華?算法
攻略社區的主要需求數據庫
攻略社區的數據比較複雜,包括了多語種,不一樣篇幅的天然語言處理,如用戶評論,長短篇幅的遊記,景點官網頁面數據;圖像數據處理,如用戶上傳的景點照片等多種應用場景。模型須要在極短的時間內對海量的這些信息進行正確分類。微信
深度學習及一些經典模型簡介網絡
介紹淺層機器學習模型和深度學習模型的異同。從傳統的支持向量機(SVM)起始,按部就班,引出了在今天的分享中扮演了很是重要角色的卷積神經網絡模型(CNN)。機器學習
從最基本算法角度簡單明瞭地指出了CNN的特色,優點和應用場景。除CNN以外,還有詞向量模型(WORD2VEC),循環神經網絡(RNN),長短時間記憶人工神經網絡(LSTM),循環卷積神經網絡(RCNN)。學習
DL在攻略社區應用優化
在介紹了攻略社區的特殊需求和主流深度學習模型以後,下一步即是如何根據實際狀況和模型特色高效知足現有的需求。根據數據類型,應用場景又可分爲如下若干部分:視頻
一、在天然語言處理方面,主要運用CNN模型進行語義情感分析,LSTM模型進行地址質量打分,CNN+Highway+LSTM+Attention模型完成指定景點開放時間的抓取和判斷。htm
二、在圖像處理方面,運用CNN進行圖像分類,識別廣告圖片,侵權圖片和非法圖片。以及CNN+LSTM+Attention進行圖像中物體檢測以及自動生成圖片對應的帶情感文字描述。
三、在視頻領域中,使用RCNN和LSTM模型對視頻數據進行自動審覈並生成對應文字描述。
四、在數據內容領域中,用模糊神經網絡進行目的地和POI信息的多元信息匹配。
將來趨勢和關注點
對於攜程攻略社區而言,以後的工做目標除了優化現有模型外,還將從自動糾錯,知識圖譜,虛擬現實和更多更普遍的深度學習模型入手,進一步提升計算效率和準確率,爲用戶帶來更多樣化更好的體驗。
如需下載PPT,請點擊這裏:http://techshow.ctrip.com/archives/1090.html
(本文由李赫整理)