近日,AWS 2017峯會在京盛大開幕。第四範式互聯網業務負責人周開拓受邀出席,並發表了「打造人工智能MVP」的主題演講,分享了企業高效、快速地向人工智能轉型的寶貴經驗。周開拓曾任職於淘寶網,負責在線推薦系統的設計和算法工做,加入第四範式以後,基於第四範式核心產品「先知」,孵化了面向中小企業的公有云版機器學習服務,致力於完成內容推薦、電商推薦、精準營銷、計算廣告等關鍵業務的AI轉型。算法
快速定位機器學習的MVP併發
在移動互聯網領域,最容易被接受的一個概念即是最小可用產品(MVP),即開發團隊、設計團隊用最小的成本、冒最小的風險,最大程度去驗證產品的可行性——這個產品的可行性,是指這個需求是否真實存在,當前產品解決這個需求的方向是不是正確的。機器學習亦是如此,企業對於機器學習的投入是長期、持續的,帶來的收入和回報也是巨大的,但在此以前,企業更但願用較低的成本去驗證:引入機器學習是否能夠帶來業務指標的提高,產生價值的潛力有多大。機器學習
以較爲經典的推薦系統爲例,數據科學家每每會從點擊、購買、收藏、轉發分享等來表達用戶是否喜歡推薦的商品。爲了簡化目標,能夠選擇點擊做爲最小可用產品的優化方向,由於點擊是全部事情發生的前提,且點擊率容易獲得較好的優化效果。而在遊戲運營方面,其目標主要是儘量延長玩家停留的時間,而且吸引玩家付費,故提升用戶留存率即是重中之重。但因爲留存率更多地由遊戲自己的可玩性和玩家的興趣喜愛決定,可干預性不高,因此留存率較難影響。儘管總體的留存率難干預,但遊戲收入都是由極少數忠實玩家提供,這部分玩家能夠用很強的運營策略進行干預。因此對於遊戲而言,可將最小可用產品的優化目標定位在儘快鎖定遊戲的高價值用戶,且鎖定時間要迅速。工具
機器學習MVP的關鍵步驟學習
在機器學習的項目中,數據決定效果的上限;建模、調參則是達到上限的過程。所以數據處理、建模、調參,是成功實現一個機器學習MVP相當重要的步驟。優化
以往,公司規模越大的企業獲取數據越麻煩,且在數據的使用時,若使用了錯誤的方式進行拼接,項目後期出現問題時,很難debug。因此在項目前期,須要控制項目風險和成本的前提下,儘可能使用熟悉、好理解的數據。寧肯犧牲一些效果,也要避免使用看似有吸引力,但風險更大的數據。人工智能
對於數據自己來講,數據的挑選、數據是否有預測性等,無需耗費過多的人力去考慮,針對此類工做目前已經有了很成熟的方法和工具,在不違背因果關係的前提下,咱們儘量地讓機器去自主完成,此外,真實的數據缺失是正常的,不缺失的數據可能纔是有問題的,咱們已經有不少方式來填充缺失值,或者把缺失自己也做爲一個特徵。其次,數據有離散的、連續的,好比預測一個遊戲玩家是否是高價值用戶,那麼數據可能有這個玩家已經消費的鑽石、金幣數量,可能有這個玩家的職業,甚至是玩家手機型號,這就要求數據處理中能同時處理這兩類特徵。第四範式在這方面已經作了一些工做,先知平臺已經根據連續和離散的數據的計算特性作針對性的設計。spa
數據選定以後,便開始建模。其中,特徵組合與調參是關鍵。在解決實際問題中,業界傾向於先使用簡單的邏輯迴歸LR模型,爲了模型具有更強的學習能力及表達能力,就須要使特徵具有非線性的特性。特徵組合即是一種經常使用且效果明顯的方法。換句話說,特徵組合是一種增強特徵描述能力,提高模型預測效果的方法。然而,想要得到特徵組合並不是易事,須要數據科學傢俱有極強的機器學習知識儲備及業務理解能力。調參亦是如此。debug
事實上,特徵組合與調參這類重複性較強且佔用時間較多的工做能夠用機器自動完成。在將數據科學家的經驗固化爲產品以後,技術人員只需設定好用於組合的基礎特徵,以及參數的類別、次數便可。目前,第四範式先知平臺(試用連接:https://prophet.4paradigm.com...)依靠自主研發的FeatureGo算法,實現了機器自動特徵組合、自動調參的功能,解決了以往人爲添加組合特徵門檻高、耗時長等問題,大大節省了建模的時間。舉個例子,此前第四範式基於先知平臺打造了某新聞內容平臺的新聞推薦系統,從數據基礎開始構建,收集、分析、挖掘了新聞及用戶等各個維度的數據,再經過自動特徵工程、自動調參等功能,只耗費2周時間就訓練出了特徵維度數十億級別的模型。最終,該平臺推薦新聞的點擊率提升35%,顯著提高了用戶的使用體驗。設計
綜上所述,當定義好了問題的目標、邊界,利用現有的數據、人員,再配上一個專業的工具,一個機器學習業務改造系統的上線能夠很是快速、有效。當機器學習技術真正產生了效果,客戶就知道下一步應該如何投入資源,以及應該投在什麼地方。