移動互聯網時代,「大數據」是關鍵詞之一。做爲推送技術服務行業的先行者,個推不斷進行技術革新引領推送革命。經過挖掘用戶使用場景,結合地理位置信息精確命中不一樣用戶的各種需求。在服務大客戶的過程當中經過自身平臺積累的海量數據發展了大數據。算法
目前,3.0產品最重要的技術——電子圍欄技術:電子圍欄是精確捕捉用戶場景,實時給用戶推送有價值消息的手機推送解決方案。客戶根據業務需求,在地圖上設置電子圍欄區域和目標用戶屬性,經過冷數據畫像(結合大數據分析,篩選目標用戶)以及熱數據投放(當目標用戶進入電子圍欄實時觸發),作到在合適的時間、合適的地點、合適的場景、把合適的內容、推送給合適的人。數據庫
構建基於LBS的大數據應用,通常的實現流程爲:經過信息收集後進行基礎數據的整理,數據挖掘/機器學習,服務搭建以及數據可視化等。安全
數據挖掘的基本流程框架
基礎數據的處理主要包括:數據集成和一些部分數據處理。機器學習
數據集成,數據挖掘或統計分析可能用到來自不一樣數據源的數據,咱們須要將這些數據集成在一塊兒。但若是隻有一個數據源,這一步能夠省略。分佈式
基礎數據處理,有些數據是缺失的(數據屬性的值是空值),有些數據是含噪聲的(屬性的值是錯誤的,或有孤立點數據),有時一樣的信息採用了多種不一樣的表示方式(在編碼或命名上存在不一致),基於種種問題要對數據進行基礎的處理。經過基礎數據處理,能夠確保村人數據倉庫中的信息是完整、正確和格式一致的。性能
數據轉換主要是利用現有的字段進行運算來獲得新的字段,一般說到數據變換主要包括四種:數據離散化(採用分箱等方式)、產生衍生變量、使變量分佈更接近正態分佈、數據標準化。若是對連續變量進行離散化,能夠避免引入任何分佈假設。這樣就不須要符合正態分佈了。
數據挖掘時只根據數據庫中的數據,用合適的數據挖掘算法進行分析,得出有用的信息。其中,模型算法質量的評價是很重要的一步。且數據挖掘是一個循環往復的過程。學習
基於LBS的大數據應用須要解決不少問題:基礎數據問題好比海量數據流(>20W 條/s)、數據處理性能複雜計算(定位和統計)、準確率、秒級實時性要求、以及數據的實時性等。對此,個推的解決方案是:分佈式流式計算框架、Spark Streaming、發佈/訂閱模型、Apache Kafka、Events等。大數據
最後,基於大數據的LBS應用,可使用分佈式流式計算框架,構建數據閉環,從而實現持續優化基礎數據。優化
目前的成功案例有: 1.杭州白馬湖動漫節的安全保障。本經過海量的樣本數據採集和分析,以實時人流熱力分析圖爲主要服務接口,監控動漫節期間杭州濱江區白馬湖動漫廣場附近的人流去向和擁擠程度。這一項部署創建了白馬湖區塊的實時監控和人流預警系統,在人流量超過必定數量的時候實時發佈預警,從而及時提醒相關人員注意對應區域的高峯人流量疏散和引導,從源頭上防範踩踏事件及避免安全隱患的發生。 2.發生地震時實時警報,並經過大數據對人羣熱力圖的分析,爲震後救援工做定製合理方案及提供有效幫助。 3.與旅遊局合做,將旅遊分析熱點圖與實時推送相結合,用於疏散和引導景區高峯人流量,避免危險事件發生。