今年年初,Oracle發佈了一份大數據變化趨勢報告,報告中指出,愈來愈多的企業將用戶分析甚至是企業應用同大數據加以結合。從AI支持型應用到Megabox等數據流客戶端,各家企業都將迎來本身的大數據轉型及下一代數據驅動型應用。Oracle亞太客戶體驗策略及轉型部門總監Krisi Mansfield也表示:「預見並瞭解了客戶的意向,並相應地採起行動以後,就可實現我的化(Individualization)」前端
目前,國內一批大數據企業都開始致力於此項技術的研究和探索——即圍繞用戶的使用過程來打造一對一的體驗。從已掌握的、能體現用戶在某個特定過程的數據入手,釐清這些數據將在接下來的哪些互動環節提供支持與幫助,從而據此制定具體的互動體驗。所以,這一過程也將改變企業開展業務的方式——從反應式到主動式和預測式。算法
大數據在量級、實時性、多樣性三項維度上的進程後端
圖片來源:https://www.salesforce.com/hub/analytics/how-to-use-big-data-analytics-tools/瀏覽器
但總的來講,該項大數據應用還面臨着許多較大的技術難題。隨着數據渠道來源的多樣化、量級的巨幅提高和對實時性效果的需求加強,各家大數據公司該如何規劃技術演進的具體細節、技術架構又該如何設計和搭建……帶着這些問題,咱們採訪了第三方全域大數據服務提供商【友盟+】COO葉謙,他也以【友盟+】的發展和技術演進爲例,分享了合併後統一技術架構的一些經驗,闡述了當下大數據行業的痛點、難點和將來大數據的發展趨勢。安全
【友盟+】COO 葉謙網絡
1爲何叫「全域數據」?架構
「全域數據」是否意味着「線上」、「線下」數據概念的模糊化?從PC端到移動端,從線上數據到線下數據,數據在不斷擴張的渠道中逐漸變得分散,只有把這些數據有效打通,才能讓大數據發揮其價值。併發
在葉謙看來,大數據時代,你們愈來愈多的發現A場景下的一些數據,在B場景也很是有用,因此數據的範圍在延伸,意味着企業也要將探尋數據的觸角進行拓展。這是全域大數據的基礎。但大部分時候,某一家企業或某一個組織,只擁有一部分或一方面數據,所以又很難把多個方面的數據收集、串聯起來。框架
因而,如何多渠道收集數據、如何實現跨屏數據打通、如何解析更多形式的非結構化數據等問題,正使全域數據面臨着許多不言而喻的挑戰。運維
移動互聯網剛在國內興起之時,企業對數據的認知或需求還處於初級階段,大多數只關心諸如留存、日活、新增量這類數據,一些規模較大的企業可能會附加更多維度的分析需求,好比對「各個渠道所帶來的量是多少」、「日活人羣都是哪些類型」等不一樣程度的用戶細分需求。發展到今天,企業在任何一個用戶分區的維度上都但願獲取針對其用戶的、更細粒度的數據分析,如年齡、喜愛、訪問頻度、地理位置等一系列用戶屬性。所以,【友盟+】如今的趨勢也在由數據統計、數據分析逐漸拓展到數據智能分析和數據深度挖掘。
那它基於一套怎樣的模型實現?這裏咱們以U-DIP(【友盟+】數據智能平臺)的運做原理來舉例。
(點擊查看大圖)
目前,【友盟+】的數據源主要來源於PC端、移動端、線下數據這三支渠道,而每一支渠道採集的數據種類又不徹底同樣。好比PC端數據會更多的彙集於頁面跳轉、瀏覽時長、瀏覽器信息等,移動端數據包括使用APP應用的各種信息,而線下數據更集中在地理位置、移動路線等。這些數據會做爲原始日誌進入存儲平臺中。第二步就是經過預約義的規則抽取數據中的特徵信息,這些特徵信息都和設備(或人羣)相關,並能經過一個大ID關聯庫進行打通。
另外一方面,【友盟+】從各種信息中(網站信息,社交網絡信息,應用市場信息等)構建關於APP和網站的知識庫。這些信息在第三步「深度加工」時,被輸入到機器學習算法模型中,獲得各類類型的人口學標籤和興趣標籤。這個過程當中,海量數據還可被利用,進行設備質量和用戶真實性的識別工做,例如判斷哪些設備是風險設備(非正經常使用戶使用的設備,多是做弊設備或者是虛擬機)。
北京大學新媒體研究院教授劉德寰也曾提出過,如今存在的不少標籤實際上都是僞標籤,將來進行有效大數據運算會有兩種路徑:第一,將來數據分析就是分析人,完善人的緯度。第二個路徑,對物的緯度探測,基於人的認知習慣。
2與業務並進,技術該如何更新?
在業務的演進和縱深的狀況下,須要技術在背後予以很大的支撐,同時也須要技術能與業務並進。【友盟+】在如下三方面進行了技術上的調整和優化:
數據採集端的演進、後端計算的優化
在數據採集端的持續積累和演進上,它從以前較爲簡單的採集方案、採集協議,演化成今天所具有的如虛擬機探測方案等較爲完善的反做弊方式。同時,隨着數據量級的擴增,後端計算也經歷了相似的演進,從最初較小體量的計算,到擁有上千臺機器的大規模Hadoop集羣,再逐漸遷移到阿里雲的StreamCompute、MaxCompute大型雲計算平臺上,【友盟+】根據數據量大、計算複雜等特定狀況進行了大量優化和改造。
不斷髮展的過程,數據量也開始呈現指數型增加態勢,每一年平均會翻好幾倍,再加上計算任務複雜程度和任務個數的提高,致使了後端計算的巨大壓力。早期時採用的是當時較爲成熟且使用普遍的一些開源框架,好比Hadoop、Storm、Kafka、Spark、Elasticsearch等。隨着業務的擴展,【友盟+】更多的採用了阿里雲方案,因爲穩定性和成熟度等優勢,阿里雲技術體系也在逐漸取代其曾經的開源系統。
將數據挖掘結果用於技術方案的優化
在數據累積的過程當中,【友盟+】開始將數據挖掘的結果用於其自身的計算體系及技術體系優化。針對採集的海量網頁內容,技術團隊創建了一套數據模型體系,來區分哪些設備、哪些網站和哪些流量存在異常,好比監測出涉及做弊做弊的流量和客戶端 。對於電商、支付平臺、O2O及互聯網廣告系統來講,反做弊在本質上發揮着反欺詐、杜絕虛假買賣、保證廣告主利益等做用。但做爲一項核心技術,幾乎全部的公司都會對本身的反做弊技術諱莫如深,研發一套反做弊規則和系統也須要很深的技術積澱。
這一點上,【友盟+】的母公司阿里巴巴在電商反做弊已造成了一整套監控預警、識別分析、處罰管控的多維度監管機制,特別是在對虛假交易的數據監控和算法識別上就應用了大規模圖搜索技術。於是【友盟+】在這方面有一些技術優點和先天基因。去年的雙十一當天,【友盟+】監測到的廣告投放量達34億多,經過反做弊進行流量過濾後識別出約七千多萬條的異常點擊。而這一過程也至關於爲廣告主節省了三千多萬廣告投放費用(按照0.5元一次點擊計算)。
3多條業務線同步推動的狀況下,如何統一技術棧?
【友盟+】在業務方向和技術架構上作的規劃和統一,一樣具備一些借鑑意義。
葉謙說,2017年【友盟+】將主要在三個維度上作新的業務規劃,一是互聯網應用數據業務,二是拓展新零售數據業務,三是發力廣告營銷數據業務。 技術方面的調整則會圍繞着技術棧統一來展開,主要有四點:開發語言統一,開發框架的統一,通用技術組件的統一以及底層平臺的統一。統一的結果不只能使開發效率提高、穩定性加強、運維成本下降,同時也能在必定程度上縮減核心硬件成本。
以統一開發語言爲例,以前所採用的開發語言很是多,好比Python、Java、Scala、Ruby、PHP等。而統一後,全部研發團隊會獨立使用Java。在葉謙看來,Java是這幾種語言中相對最成熟,於是也會圍繞Java開發語言來選擇較爲成熟的開發框架。例如,會統一使用Spring Framework做爲前端開發框架。另外,在技術組件的統一上,【友盟+】也選擇了通過阿里集團多年雙11檢驗的、可以承載大數據量高吞吐和高併發,具備極高穩定性和較大可擴展性的通用技術組件。2016年雙十一期間就用到了阿里集團提供的能支撐龐大數據量的一些通用組件,如:阿里雲的MaxCompute。
但總的來講,統一技術棧這件事在任何公司都不可能一蹴而就、一路順風。在這個過程當中,各技術團隊勢必會經歷必定程度上的心理鬥爭。由於對於任何技術人而言,改變他所習慣的語言、開發框架,就是對其溫馨區的挑戰。如何讓不一樣的團隊成員走出原有的固定模式,承認技術棧統一的價值,造成統一的認識,是推進技術向前、我的成長的一個最重要的契機。
葉謙認爲,當你們逐漸認識到技術棧統一的價值以後,後續的研發推進才能瓜熟蒂落,好比:你們一塊兒來選擇更成熟技術方案、更成熟的技術體系和更成熟的組件等。
4用數據爲客戶提供真正的價值
談到將來大數據的趨勢,葉謙認爲主要會圍繞三點來進行。一是數據與垂直行業愈來愈緊密的結合,二是數據放開程度會提升、數據交換量會大大增長。固然, 在這一點上還需先解決數據安全提取的問題,這也是目前困擾大數據行業的難點之一。三是與人工智能的結合產出,會更多的基於歷史數據對將來進行預測。
這三點一樣是【友盟+】發力的主要方向。葉謙但願,無論本身和團隊能走多遠,仍是要回到本來的初心上——真正能用數據爲客戶提供核心價值,解決他們在利用數據時遇到的困難。
提起印象最深入一件事的時候,葉謙提及在去年【友盟+】的一個客戶,其數據指標曾出現了5%的波動,雙方先進行了半個多月的排查和異地討論,工程師直接到現場和對方一塊兒工做、找出可能的緣由點,回來再跟內部人士圍繞可能的狀況加深分析,才得出了那個細微的致使問題產生的根源。雖然流程之繁瑣,但葉謙始終奉信「使命必達」,即便問題再棘手、再特殊,也須要作到客戶第一,最大程度上解決他們的需求,從而才能檢討和提高自我。
放在團隊中,葉謙也更多的在企業文化中植入工匠精神,有意識的在工程師羣體培養「客戶第一」的理念,鼓勵每一個人發揮本身的主觀能動性,能執着、專一、踏實的在行業耕耘。「越是多變、浮躁的互聯網,越須要對業務和技術深挖,把根扎深,這樣才能找到本身的核心競爭力。對企業而言,也是如此。」葉謙如是說。