本文做者:HelloDeveloper算法
2014 年 8 月 16 日,在由@百度主辦、@InfoQ負責策劃組織和實施的第 53 期百度技術沙龍活動上,來自百度研究院大數據實驗室數據科學家沈志勇,和中國科學院大學管理學院講師劉穎,分享了他們在大數據領域的實戰經驗。運維
本次分享的話題分別是「 大數據與預測」和「 基於互聯網數據的社會經濟預測」。本文將對這兩個主題分享作下簡單的回顧,同時提供相關資料的下載。機器學習
主題一:大數據與預測(下載講稿)學習
百度的沈志勇首先提到了本身對大數據時代的理解,他認爲這實際上是機遇與挑戰並存的時代,大數據使整個社會都有了數據意識。你們都知道怎麼樣採集和記錄,把數據都寫下來或者是記經過各類各樣的方式記下來,之前沒有這個意識。這樣其實對於機器學習來說,纔能有更加廣闊的數據源,對於算法來說也能夠有更多的數據。數據多了之後,多元數據每每存在分佈的問題,這樣會帶來不少問題,咱們要解決這種問題每每須要採用一種複雜的模型,這樣能夠應對下面列出來的問題。這樣造成一個時勢造英雄的態勢。大數據
沈志勇提到:「咱們是用機器學習的方法作預測,這裏我大概講一下人的預測和機器的預測大概是什麼樣的。首先咱們看一個正常的人,它是根據本身的經驗或者是精力出發概括一下,這個事情怎麼辦,根據預測的概括去推測未來,它是這樣的。還有一個比較直接的方法,我直接看別人怎麼作,我一個老農民可能知道天氣怎麼樣,可是年輕人不知道,我去看天氣預報。人的特色,就是大腦很是神奇,它有很強的識別和推理能力。好比說人工智能不少事情都在說能達到幾歲小孩的智商,並且人是 one Pass 你無法回去,人會受到主觀的干擾。機器學習其實也有一些方法直接利用別的算法或者是結果,它每每是模型的融合或者是模型結果的融合。網站
接下來沈志勇以百度預測裏面的旅遊爲例,引入溫總理參觀百度的故事。介紹了時序類預測的方法。沈志勇提到:「時序性最重要的就是歷史信息,之前這條線是怎麼作的,對如今有沒有參考。有時候你會發現特別沒有規律,別的東西在影響它,會造成不少變量。在解釋變量的時候會造成很是獨特的預測。」「還有一種是事件類的預測」沈志勇用足球比賽做爲例子,讓你們更明確這種預測的方法。「你要預測它的勝負,最關心這個的人是博彩公司和賭球的人,因此這是一種作法。第二種作法是咱們沒有精力去作,咱們作這件事情只是玩票,剛纔說了在預測的時候還能夠看別人的結果。其實這個市場是很是有意思的,它跟賭博很像,可是又不是賭博,第三鍾作法是比較傳統的問卷調查,這樣一樣能分析出預測的效果。」人工智能
最後總結一下,沈志勇談到:「咱們在作的過程當中,會根據需求找信息,根據這個信息建模,這實際上是見招拆招的過程。如今預測只是咱們的入手點,咱們整個作的是這樣一個智能系統,可能包括了前面的監控、異常檢測,診斷之後咱們還要作自動調整,會用到各類場合,好比說運維和運營等等這樣一些地方。」spa
中科院的劉穎老師把大數據在企業中的應用(或者是在經濟中的應用)分爲三個層次,分別是宏觀、微觀和中觀,從這三個方面作了一些研究實例,分享給你們。3d
一、微觀層面日誌
主要是在企業的層面作的比較多。企業應用最多的就是運營和營銷,能夠給企業的運營帶來一些借鑑和促進做用。在營銷方面有一些個性化、針對性的營銷。亞馬遜可能在國外作電商用戶行爲作的很是好的公司,亞馬遜商品的訂價採用的是及時的掃描全部競爭對手商品的訂價,它採用的不是最低訂價法,而是倒數第二的訂價法。
二、中觀層面
這個涉及到行業的預測,劉穎首先分享了一個案例:電商交易背後的用戶行爲規律。劉穎認爲這其實是對電子商務的日誌分析的結果。「咱們都聽過啤酒和尿布的例子,咱們也還想知道關聯推薦交易結果背後,用戶走過的哪些腳步,用戶的過程有沒有一些規律,這個可能對網站的運營人員也是特別重要的,這個結果咱們也是從問題出發。若是從店鋪的運營角度,咱們但願知道用戶走過的這些路徑的規律,若是是從營銷的角度,咱們但願把用戶進行分層和細分,每一個層級的用戶它的特色是什麼,咱們但願用什麼方法給它作營銷效果更好,這是兩個思路。」
三、宏觀層面
在宏觀層面,咱們國家如今比較關心的是經濟增加、促消費,以及領導人常常提到的要知道中小企業的經營情況,咱們作了中小企業的精氣指數。先分析國家的宏觀形勢,再分析咱們行業的形勢,對公司的經營和各個方面的基本面的分析來決定這個公司的股票是否是值得購買。
最後劉穎老師總結到,「咱們這些研究可能更多的是關心企業的實際問題,從問題出發來找數據,咱們其實不是特別關心數據的量大仍是量小,只要你用咱們認爲就是好數據,實際上真實到用的每每是小數據,對企業的決策直接產生價值。」
爲了促進參會者與咱們每期的嘉賓以及講師近距離交流,深刻探討在演講過程當中的疑問,本次活動依然設置了 Open Space(開放式討論)環節。
在 Open Space 的總結環節,兩位話題小組長分別對討論的內容進行了總結。
沈志勇:咱們在作的過程當中發現:圖模型有很是強的表達能力和信息壓縮能力,你的數據量太大,耗費的時間也會太長,因此要在有限的時間內作大量的數據是比較累的。
劉穎:咱們必定要以企業的實際問題出發,作數據分析不必定要盲目追求數據量大,不論是大數據、小數據,可以解決問題的數據就是好數據。
@滕毅 大數據是行業趨勢,期待老師帶來的醬菜講解;
@winsh 有什麼好的大數據分析模型麼,好比豆瓣面向用戶的圖書電影推薦?
@ 夏粉 _ 百度:百度大數據實驗室沈志勇老師爲你們揭開世界盃神預測之謎!