本文僅用於學習和交流目的,不得用於商業目的。非商業轉載請註明做譯者、出處,並保留本文的原始連接:http://www.ituring.com.cn/art...程序員
周涵寧,本科畢業於清華大學自動化系,於美國伊利諾伊大學香檳分校得到計算機視覺領域博士學位。 算法
曾擔任富士施樂硅谷研究中心研究員、亞馬遜總部高級技術經理、盛大創新院資深研究員兼產品經理、智谷研發VP和寶寶樹的CTO等。 編程
現任Hulu北京研發中心研究推薦算法研究負責人(Hulu是全美第二大付費在線視頻平臺)。具備15年的產品研發、創新和團隊管理經驗,專一於實現應用數據和算法從0到1的產品落地,在數據分析和機器學習方面有豐富的經驗。微信
咱們學校的自動化專業下面有一個方向叫做模式識別,它是人工智能的一個應用領域。我舉一個模式識別在工業界的應用,好比應用圖像傳感器作自動化質量檢測,就是一我的工智能落地的場景。美國硅谷有一家叫KLA-Tencor的上市公司,他們的主要產品就是基於無損探測器(包括光學傳感器)進行硅片自動質檢。另外,指紋識別和光學字符識別(OCR)也是模式識別的範疇。它們都和計算機視覺有很強的聯繫。網絡
選擇計算機視覺做爲研究方向,除了在自動化系的基礎訓練,還有一個重要因素是實習經歷。我在大三的時候,到微軟中國研究院(如今叫微軟亞洲研究院)實習。當時研究院的主攻方向是計算機視覺和多媒體技術,每幾周都會有相關的國際專家來交流講座,其中包括我後來追隨的博士導師,計算機視覺領域的開山鼻祖,UIUC大學的黃煦濤教授。我當時作的項目之一是基於多張圖片的三維場景重建。耳濡目染,我對計算機視覺領域產生了濃厚的興趣。框架
傳統的自動化主要是以相對固定的模式,處理相對簡單的場景。智能化則具備人的感知、決策和邏輯能力,能夠更加靈活多變的處理各類複雜場景。舉例來講,若是在Outlook裏設置了一個日曆事件,下午4點要開會,那麼電腦到了下午3:45的時候就會彈出一個事件提醒,這叫做自動化。若是電腦根據你當時的位置、路上的交通情況和附近的空閒出租車狀態,自動計算出從你所在的位置叫出租車再行駛到會場須要花費37分鐘,而後在3:22 PM的時候幫你填好預定出租車的訂單。你只需點一下確認按鈕,就能夠收拾好筆記本出門了。這就叫智能化。機器學習
隨着各類智能算法可靠性的提升,它們逐漸融入到人們的平常生活,這些傳統意義上的"智能化",也慢慢變成了"自動化"。例如,垃圾郵件過濾和拼音聯想輸入,都用到了基於機器學習的智能算法,可是人們對這類產品的預期也相應的提升了,再也不認爲這些功能是很"智能"的了。函數
主要是補充線性代數、凸優化和機率統計方面的知識。相比傳統算法,機器學習算法的最大不一樣之處是它的執行步驟和參數,不是由程序員人工設定的固定組合,而是基於訓練樣本學習到的機率模型。要理解各類機器學習方法的優缺點,可以將當前應用的場景,抽象成經典的機器學習問題。學習
例如,Hulu視頻App的首頁推薦,以前是按照產品經理手工定義的幾類不一樣內容來源來排列展現的優先級,而後再對相同優先級的內容,按照首播時間、最近熱度等因素排序。這就是典型的面向傳統編程模式的設計。新版App的首頁排序正在向基於機器學習的數據驅動算法轉變。咱們根據點擊率預估進行排序,其中的點擊率預測模型訓練,會參考產品經理給出的首播時間、最近熱度等特徵,可是會基於在線學習的框架,自動根據用戶的場景不一樣而動態調整各個特徵的權重。優化
從我的層面上,我以爲技術研發更有成就感,由於專一和沉浸在解決問題的過程當中,是一件很享受的事。作技術研發也對本身的時間和精力有更好的掌控感。相比之下,團隊管理者須要有犧牲小我、成就團隊的胸懷。我讀過一本很好的書——Leaders Eat Last,講的就是這個意思。同時,還須要具有較高的情商和同理心,才能處理好承上啓下的溝通,這方面我推薦你們讀阿德勒寫的《溝通的藝術》。
技術是立身之本,沒有這個基礎就不能成爲一名合格的程序員。若是想要不斷地提升本身的能力,解決更大的難題,即便不戴管理的頭銜,也仍是要掌握一些管理方面的知識。如何推動項目,如何說服他人,如何與其餘團隊溝通,等等。得到這些技能,咱們須要運用「一萬小時定律」按部就班地進行有意訓練:首先掌握必定的理論知識,這裏我推薦看《高效能人士的七個習慣》;而後在實際工做中去運用,體會哪些方法是適合本身性格的。若是在這個"術"的層面訓練到了必定的程度,就能夠嘗試上升到「道」的層面,就是找到本身最擅長和最認同的事業,並運用以前學到的「術」,在助人的過程當中實現本身的人生價值。
Hulu成立於2007年,當時的創始團隊中就有華人,他們建議用漢字「葫蘆」的漢語拼音來命名這家公司。由於Hulu但願以優質的視頻內容吸引用戶,讓用戶產生好奇心——「葫蘆裏賣的什麼藥」,並用個性化推薦引導用戶發現更多內容。
Hulu目前只在美國運營,領導層會根據市場和用戶的需求,評估Hulu國際化的戰略。與國內視頻網站相比,Hulu擁有更多的美劇資源,今年還推出了電視直播業務,用戶能夠在全平臺隨時看到50多個電視臺正在播放的內容,包括體育實況、新聞等時效性很強的節目。
推薦系統,從更廣的意義來說,屬於個性化系統,它是線上分發渠道相比線下渠道(例如,院線和傳統電視臺等渠道)的最顯著技術優點,是視頻網站的核心競爭力。它能夠用來引導用戶發現新內容,提升用戶活躍度和粘性。
客製化能夠有幾個層級,個性化是其中最細緻的一層。在個性化之上,能夠按照粗略的用戶分組來實現客製化。對於25~30歲這個年齡段的全部女性用戶,咱們可使用同一排序模型。在客製化的基礎上,能夠疊加針對每一個用戶的個性化特徵。若是把推薦系統當作是函數 y = A(x),其中x是關於每一個用戶的特徵,y是輸出的推薦結果,那麼分組客製化,就是把A(.)函數針對不一樣組的x分別訓練,而後利用集成學習(ensemble learning)整合。
從業務上講,用戶的觀看時長和訂閱數能夠間接反映推薦系統的有效性。可是,這兩個指標會受到內容庫和市場推廣週期的影響。例如,新的爆款劇《冰與火之歌》第七季上線後,會在短期內帶來大量新的訂閱用戶,而且大幅度地提高用戶的觀看時長,可是一兩週之後,這些指標就會逐漸回落。而在整個期間,推薦算法自己的質量並無變化。
咱們不只須要根據業務指標來衡量推薦系統,還要參考一些直接的度量標準,好比點擊率、多樣性、內容覆蓋率等。要想得到這些直接的度量指標,開發人員須要和業務部門溝通和討論,根據他們的反饋作出調整。有的產品強調方便性,咱們就要儘可能縮短用戶從瀏覽到觀看花費的時間,而有的產品是爲了給用戶提供更多的選擇,但願用戶瀏覽儘可能多的內容,咱們就須要對它們各自定義不一樣的指標。
以特徵選擇爲例,深度學習中的非線性映射(利用激活函數的非線性),自動化了特徵選擇的步驟,使得咱們能夠更容易地整合多種信息源。傳統上基於用戶行爲的協同濾波和基於內容元數據的系統,則是分開訓練兩個模型,而後將結果融合在一塊兒的。可是,這樣很難將融合過程當中觀察到的偏差傳遞到分開訓練的兩個模型的過程當中。深度學習提供了一個端到端的框架,使得咱們能夠用同一個網絡結構來將用戶行爲和內容元數據一塊兒映射到用戶-物品相關性評分的學習中。
我着重介紹了Hulu利用多臂老虎機來平衡熱門和長尾內容的展示,以及用循環神經網絡模型作序列推薦的成果。前者能夠更有效的利用有限的展現位來作長尾內容的冷啓動,後者是對自動連播場景的一種比較有效的建模方法。
視頻網站的核心價值是對內容的理解。基於用戶行爲的相關內容分析,已經到了比較成熟的階段,接下來的主要挑戰是對新內容和中長尾內容的冷啓動。目前,現有的方法依賴於人工標籤,存在必定的侷限性,隨着計算機視覺技術的發展,將來將會有愈來愈多的系統是基於內容理解來自動打標籤。
智能助手的應用是一個頗有潛力的發展方向。例如,我晚上回到家,對電視說「我今天心情低落」,電視就會推薦一些治癒系的影視做品。若是我接着說「我想看點搞笑的」,它就會在以前推薦的基礎上,篩選出喜劇。這個場景雖然看似簡單,卻涉及複雜的情感類語義標籤和多輪對話之間的上下文關聯。