王棟: 要作好推薦,只有技術是不夠的

非商業轉載請註明做譯者、出處,並保留本文的原始連接:http://www.ituring.com.cn/article/208749html

王棟,美團網技術總監,負責美團外賣的搜索推薦及數據團隊。2009年他博士畢業於清華大學人工智能實驗室,研究機器學習算法及計算機視覺的中層語義表示問題。畢業後前後任職於hulu及優酷,主要從事網絡視頻中的搜索、推薦、廣告等流量變現工做。曾屢次帶隊或參與TRECVID/KDDCUP等國際機器算法競賽並取得第一名。2011年帶領團隊搭建出世界上第一個實用的視頻人臉標註系統(hulu face match)。王棟是國內推薦系統的早期關注和研究者,對視頻搜索有豐富研究經驗,他實現了展現及效果廣告的流量預估,在線匹配及用戶定向等多項核心技術的大規模應用,另外,他在電影票房預測等數據挖掘的前沿方向也取得了突破。王棟目前關注O2O領域中的數據、算法及平臺化問題,指望藉助智能技術,更方便快捷地知足用戶吃喝玩樂的需求,同時助力商戶理解其目標用戶,發現並促成商機。算法

圖片描述

機器學習的一萬小時理論

「個人導師張鈸老師如今已經80多歲了,因爲各類政治運動的影響,他40歲纔開始作研究。"編程

問: 您是何時開始接觸計算機的?微信

我接觸網絡其實挺早的,可是最開始只是玩,沒有意識到有機會去作一些真正能改變世界的事情,比較後知後覺。我在清華大學學的電子計算機,可能由於性格緣由,因此一直偏向於研究性的東西。以前也曾經有過不少好玩、能夠創業的想法,可是沒有真正本身去動手從頭作到尾。網絡

問:您在清華從事研究工做很長時間,對於計算機科學的研究來講,學術界和工業界有什麼差異?架構

學術界其實更多的是要作更有趣的研究,要有創新。學術界並不在意工業上應用某個算法是否現實。好比一個用戶的一次推薦花上十分鐘對學界來講多是能夠接受的,只要推薦效果好,能夠隨後再去優化實現的速度。但在工業界,更多的是從實際效果出發,有給定響應時間等限制條件,且須要有和業務掛鉤的客觀衡量的指標,包括從用戶維度和公司商業維度去考量,因此會受到比較多的現實限制。框架

國內的大部分公司如今並不會花不少人力去作純粹的研究,美團也相似。但咱們會關注學界的發展,看有哪些看起來接近靠譜的東西,咱們能夠拿過來爲我所用。但咱們不會本身去作不少探索性的研究,這個多是一個比較明確的界限。在平時,咱們的工做任務也會有偏向「研發」的工做,也就是又有研究、又有開發,須要二者結合的工做。因此若是有同窗有本身的想法,能夠本身去花10%到20%的時間去嘗試。機器學習

問:您曾經在清華大學從事的都是計算機視覺方面的研究,如今是否能夠說您已經脫離了這個領域?分佈式

具體研究如今固然不搞了,但也沒有徹底脫離。之前咱們作的是語音、圖像、視頻的內容分析和理解,以及一些算法的研究,這些研究和推薦搜索背後的原理仍是相似的,都是機器學習,或者說是可以深刻和自發學習一些複雜規則的系統。對於這樣的系統來講,輸入和輸出的標準都是人設定的,系統自身如今還不具有自主學習的能力。因此從這個角度上說,這兩種技術我以爲仍是相通的。工具

好比,以前咱們作的物體識別或人臉識別其實就是一個樣本,機器學習系統來抽取一些特徵,從而經過模型判斷某些屬性是否存在。語音也是相似的。對於如今的大數據研究來講,真正的核心問題就是如何創建一個合理的問題表示,或者說一個層次化的表示結構,可以把問題表達清楚。而後經過明確優化的目標,你就能夠利用各類工具去作優化,最後獲得一個知足你要求的結果。

問:您以前說過,您如今不少精力其實都用在協調和激發您的同事上。您如今在管理和技術上如何平衡本身的時間和精力?

整體的思路仍是成就別人,而後成就事業。我本身只是牽線搭橋,爲別人提供更好的環境和機會,我平常處理的不少工做就是協同目標和協調資源。除此以外,我也須要對業務有比較多的思考。好比作商戶:商戶相關的基礎邏輯是什麼?商戶最根本的需求是什麼?咱們怎麼樣去知足需求?以什麼樣的路徑、什麼樣的產品形態去知足?有一些可能會涉及到技術的運營方式,好比怎麼樣能更快地吸引商戶進來?這些都須要蠻多的積累。

對我來講,技術只能靠本身週末去抽空補了,平時沒時間。工做中管理是一方面,另外還有不少業務相關的事情須要去了解、去同步,因此沒有不少時間去自學和沉澱。畢竟是作技術管理,也須要不斷同步前沿的信息,好在持續學習研究了這麼多年,也是頗有意思的事情。

從宏觀上說,我對於技術的關注包括某種技術的歷史源流、它以前是什麼樣子、如今發展到什麼階段,以及可以對咱們當前的業務產生什麼樣的做用。從公司的業務上說,有可能用戶發表的評論信息文本處理之後效果會很明顯,因此至少咱們在這個技術上要持續保持關注。從我的興趣上說,我最近一直對DNN比較感興趣,咱們團隊也在嘗試作一些合適的應用。DNN下一步會有怎樣的進展,人工智能在將來十年二十年會有什麼樣的發展,咱們都拭目以待。我以爲,咱們的下一代長大後都要學會跟機器人共處,所以,我常常會想怎麼樣可以讓他們更早、更好地去了解計算機,未來也好打交道。

問:對於那些對機器學習感興趣或者正在相關專業學習的同窗,您有哪些學習方面的建議?

如今的互聯網時代提供了一個特別好的機會。我剛上大學的時候看論文還都須要去圖書館借閱期刊,如今arxiv上還沒有正式發表的最新研究成果都有了,想學什麼都很方便。你還能夠用Coursera這樣的網站直接在課堂上學習,有世界知名的老師授課,只要想學確定能學好。你還有各類機會能夠去跟你們交流、去公司實習,或者參加各類競賽,這些活動都會讓你得到很好的實戰經驗。

若是要學習機器學習,首先就是要堅持。我知道有些比較牛的人原先原本不作算法,對計算機也不懂,但就是感興趣,他可以鍥而不捨地去學、去作,而後在學和作的過程當中不斷反思、覆盤,看本身到底還有哪些地方作得不夠好,而後不斷提升,最後作到了頂尖的水平。好比個人博士導師張鈸老師,他如今已經80多歲了,以前一直由於各類運動影響而沒有機會作研究,40歲改革開放以後纔開始作。他的數學很好,而他也一直很努力地學習和思考。因此他能把這個東西想得很清楚,很快就站在了世界的前沿。

在堅持的前提下,第二是要不斷去反思。到底怎麼樣能讓本身的思考更加深刻,可以對問題的感覺更清楚。

第三,就是要選好一個方向,由於機器學習最終仍是要實際應用的。若是尚未肯定方向的話,能夠先去探索一下,而後找一個本身感興趣的,未必是最時髦的方向。而後你要在這個方向上鍥而不捨地鑽研,不管是圖像、文本,仍是結構化的數據分析,其實都是跟應用領域相關的。

2006年 The Cambridge Handbook of Expertise and Expert Performance 出版。不少人在此基礎上提出了一萬小時的學習理論,我以爲在機器學習領域也適用。有不少數學理論你要去了解,不少編程方法你要去掌握,還有不少跟特定應用領域相關的知識,好比作語言須要瞭解語言學,作圖像或者語音須要瞭解的人的視覺感知機制或聽覺機制。另外,還有對以前的研究成果的理解和判斷,也是須要時間去積累的。因此歸根到底,堅持仍是最重要的。

在數據中淘金

「要從算法原理上說,美團相比於其餘公司可能並無多大優點,可是咱們有咱們的特色。」

問:不管在清華大學仍是在Hulu,您都曾完成不少富有挑戰性的活動或項目,好比TRECVID/KDDCUP國際機器算法競賽和視頻人臉標註系統。O2O領域最吸引您的是什麼?對於您的研究和開發來講最大的挑戰是什麼?

如今你們都說O2O,以前不少人叫團購,之後的話,可能你們會想到的是服務引擎的概念,也就是咱們作的本地生活服務。怎樣能把消費者和商家的需求匹配起來?商家確定但願能找到比較適合他品牌定位的用戶,針對這些用戶可能會作促銷活動進行拉新,或者對老客進行更好的維護;消費者或者說用戶則有不一樣的要求,拿吃飯爲例,有人但願能吃到符合本身口味又有性價比的東西,有人但願環境安靜一點,有人但願不用跑太遠。從餐飲業推廣到美髮、結婚等行業,這些行業其實都有很長的決策、支付和履約的鏈條,你們在作某些決策的時候都很困惑,因此須要獲取不少信息。若是咱們可以對我的信息進行積累,再結合咱們對商家線上線下服務的總體信息,而後利用一種比較複雜的匹配方式,就能在用戶沒有很是精確地說出他的需求時,就幫他匹配到。我以爲這是將來很是有潛力的方向。

問:在工業界,您能接觸到大量這樣的真實數據?

王棟:這是確定的,但工業界的數據跟學術界不太同樣,有不少噪聲。咱們在現實中處理這些數據時,一方面會遇到爬蟲,或者有人去刷單,咱們須要結合風控部門在訓練模型時把這些噪聲處理掉;還有一些用戶可能數據特別稀疏,這時若是把他直接加進樣本集用於訓練未必是一個好的選擇,因此須要作不少前期處理工做。爲了讓你們作算法調研時可以更快地迭代,咱們在這方面比較注重平臺化建設,這樣就不須要花費時間重複開發工具,能夠集中精力調算法。

問:可否請您介紹一下美團基於Spark的離線訓練平臺?和基於Hadoop的系統是如何結合的?

咱們離線數據的收集是在Hadoop上,一些統計數據的處理也是在Hadoop上,這是咱們用來作機器學習訓練的一個平臺。Spark如今和Hadoop統一採用YARN管理,部署在同一個集羣上,這樣數據交互會更容易。咱們很早就開始用Spark,好比早期咱們發現算法可能在某些狀況下不收斂,因此咱們還向Mllib的項目提交過一些Patch。

如今的研發已經比較完善了,因此咱們在現有平臺的基礎上作了不少工具,可以在訓練的時候很快提取咱們須要的特徵、打好標記,而後迅速經過離線的方法得知最終效果是什麼樣的。要作離線調研的話,大部分時間其實是在取數據、分析數據,最後看效果,很差了再去調。整個離線調研過程佔用你們工做時間的比例很高,因此咱們頗有必要去作優化,這樣咱們纔能有更多的時間去作真正重要的事。

關於咱們的排序解決方案,能夠參考美團技術博客http://tech.meituan.com/meituan-search-rank.html

問:相比於大家的競爭對手,你認爲美團的架構和算法有什麼特色?

可能不太好評價競對或者說友商,就說說咱們本身吧。咱們這邊對於推薦一直是蠻看重的,最先從PC端的時候就開始作,2013年時你們把注意力轉到了移動端上。隨着屏幕變小,推薦,尤爲是個性化的推薦變成了很是有價值的事。當時移動端的負責人陳亮(他如今負責酒店業務),很早就看到了這一點,隨即開始招團隊作這方面的事情。

我以爲當時比較好的一個思路就是,上來咱們先搭了一個很好的框架,這個框架可以很方便地去實現算法。對工程和算法進行了簡單的集成以後,咱們一方面能夠不斷地迭代優化這個架構,另外一方面能夠用算法自己作不少靈活的實驗,包括流量分配、不一樣的算法測試,等等。

咱們接下來所作的工做其實更多涉及用戶的各類行爲,咱們會把搜索過程當中的行爲以及歷史上使用美團的行爲數據蒐集起來。另外咱們也想辦法去獲取一些用戶的評價反饋,也就是讓用戶本身去主動吐槽。咱們再利用各類收集信息的手段,把這些數據累積起來。

第三步,咱們開始作個性化推薦的排序。在當時,雖然推薦排序在學術界已經研究得比較清楚了,但在工業界尚未很普遍的應用。最先的時候你們都用傳統的item CF/user CF這樣簡單粗暴又有效的作法。可是要作得好,繼續作深化提升,作算法調優是避免不了的。咱們當時試着研究了各類排序的策略,作到了個性化推薦,後來從個性化搜索到個性化排序,咱們也都作到了。

具體內容能夠參考美團技術博客中機器學習InAction系列的文章,如http://tech.meituan.com/machinelearning-data-feature-process.html

問:剛纔第二步您提到了跟用戶有關的信息蒐集。亞馬遜的首席科學家Andreas Weigend曾說過:"亞馬遜作的不是從數據中分析出信息,而是創建一套有效的評價和反饋機制,讓用戶造成一個良好的社區,讓用戶自身對於產品進行推薦。"在美團的推薦系統中,是否也考慮讓用戶羣體成爲產品的一部分?

咱們以前也作過一些嘗試,好比把用戶不感興趣的內容刪除,或者用戶本身提交興趣。在影視相關應用上,若是用戶看到下面的條目,點擊了,可是沒有看上面的,那就說明上面內容多是用戶不感興趣的。這些方法不少也是被業界廣爲使用的,事實上各類效果好的模型業界也都在用,要從算法原理上說,美團相比於其餘公司可能並無多大優點。咱們的特色在於,首先咱們能更好地利用美團特有的數據,其次咱們能夠利用數據結合業務找到不少有效的特徵,這些特徵可能跟咱們的應用場景相關。

咱們以前也和豆瓣、阿里等公司交流過彼此的一些經驗,發如今不一樣場景下,真正產生效果的特徵是不太同樣的。好比,如今本地電商的商品推薦,是跟用戶當時所在的位置有很大關係的,用戶有需求的時候通常是找離他比較近的,因此這是一個很大的制約因素。另外推薦也和用戶自己有關,好比一個剛畢業的學生不必定天天會去吃大餐。反倒在豆瓣上,這種不一樣形態的消費更多的是基於用戶的興趣,由於用戶付出的成本就是時間,極可能不須要花錢。而咱們受現實的約束更大一些,咱們須要考慮離用戶比較近的商家的評價、銷量,以及價格優惠的力度,還有用戶之前的消費記錄、搜索記錄,以及用戶對相似品類的興趣,這些都是咱們排序的依據。我以爲推薦是蠻偏業務場景的,和產品相關,並不光是技術好就能作好。

關於咱們推薦的工做總結,能夠參考http://tech.meituan.com/mt-recommend-practice.html

問:美團的四個產品美團團購、美團外賣、貓眼電影,以及美團酒店的技術架構相對獨立程度如何?這些產品存在哪些技術上的共享?

美團的全部業務都是部署在美團雲上的。美團雲做爲美團業務的基礎,穩定支撐了整個業務。美團雲的技術架構主要有如下幾個特色:

  • 分鐘級的雲資源交付,支持虛擬機和物理機。

  • 美團雲使用可見性隔離虛擬機減少了應用之間的影響,避免軟件衝突、管理維護衝突等問題。

  • 面對CPU、內存、存儲空間、io能力的利用率低問題,多元化業務分時複用資源將資源利用率提升了10倍。

  • 美團雲採用單實例的資源分配與回收,解決了資源回收難、業務淡出、不能整合及混布其餘應用等問題。

  • 創建了分業務的精細計量模型,可精確計算各業務部門的運營成本資源使用狀況。

另外,美團雲在調度方面作了不少優化。好比,同業務的VM使用不一樣Host;將業務分爲I/O型、CPU型、內存型;而且在餐飲和電影票業務上分閒忙時段,錯開高峯期。

在技術架構特色方面,美團雲如今採用的是多機房部署模式,每個機房都是自主運營,多個機房資源串連在一塊兒,避免單機房出現故障而致使服務中斷的問題。美團雲提供的存儲有兩種:本地存儲和分佈式IP SAN存儲。本地存儲提供高性能穩定性,分佈式IP SAN存儲則提供靈活性。

除了底層架構,再往上各個業務有本身各自的特色。好比外賣其實並不僅是關心下單,還要看以後的履約配送環節。咱們之前也作過一些和電影相關的數據工做,後來爲了讓業務跑得更快,貓眼電影就成立了獨立的技術團隊。如今,你們會有一些技術交流,內部討論,而後咱們會提供一些平臺級別的工具,好比分詞的技術,就是各業務都在用,再好比咱們作的搜索平臺架構,各個業務也都在用,他們能夠直接基於搜索的框架,提供本身業務的邏輯。好比查詢的內容是五道口,在貓眼裏面就是找相關的附近電影院,好比五道口工人俱樂部電影院;若是在酒店頻道里找,可能找的就是賓館。業務理解上的差別會讓最後出來的結果也不同,這部分是能夠定製化的,咱們的平臺如今提供這樣的能力。

問:貓眼電影的票房預測如今進展到了什麼程度?

2015年6、七月份的時候咱們作出過一版票房預測,當時提早一個月預測的準確率差很少能達到百分之七八十。貓眼產品的負責人,他也會去跟發行方商量要不要跟美團作聯合發行。他反饋票房預測是頗有價值的方向。這塊美團確定還會持續去改進,由於咱們的數據蒐集比之前作得更好了。

咱們如今用到的特徵仍是貓眼自己的一些用戶行爲特徵,包括搜索、歷史評價等等。好多人都說要利用導演、演員,以及微博搜索量去作,咱們實踐以後發現這種方法不靠譜,仍是咱們本身的數據最有效。


更多精彩,加入圖靈訪談微信!

01YrJhnWRMld

相關文章
相關標籤/搜索