2019年,我的大數據白皮書

這是傅一平的第313篇原創

「與數據同行」開通了微信羣,現已匯聚了3000位小夥伴了,長按以下二維碼發送「入羣」後加入

正文開始

2019年就要過去了,我不是個樂觀主義者,這一年雖然做了些事情,但留下更多的是遺憾,希望在2020年去解決。

一、運氣太好

在談2019年具體做了什麼事之前,要先談談我的背景,沒有一定的背景,我說的和寫的可能就是無稽之談,如果大家希望能夠從我的經歷中學到點東西的話,一句話出去,在我這裏也許是真理,在你那裏就成了謬論。

首先,是時代的發展讓自己遇見了大數據,恰好運營商在推進數字化轉型,恰好運營商還擁有豐富的數據,恰好我又正好在做運營商做數據類的相關工作。

其次,在嚴峻的行業形勢下,所在的公司保持了良好的業績,在機制、流程、組織、人才、資金、平臺等方面給大數據創造了良好的環境,大家都知道用數據驅動業務增長還有很長的路走,這是公司給予的信任。

最後,我這種智力一般,情商不高,僅有點執念(如果算優點的話,另一面其實就是一根筋)的人竟然有機會去從事大數據的創新探索工作,屬於天上掉餡餅的事情,要感謝這個大數據時代

二、擁有執念

你的願景決定了你的內驅力,而內驅力是你要主動做點事的最本質的東西,一個人有沒有內驅力你去看看雷軍的演講就知道了,每次我看到他說出「幹翻友商」這句話,就覺得很親切。

當然我是達不到人家的境界的,做點有貢獻感的事情就是我的願景,這在我今年的文章《六年一輪迴:大數據改變的,不僅僅是我的專業!中曾經提到過。

2019年自己傳承了2018年想通的這個事情,同時獲得了很多正反饋,這些正反饋產生了多巴胺:

(1)2019年從書本上認識了更多優秀的人,我覺得自己有可能在某些方面達到他們的水平,比如李叫獸在總結做事經驗的時候就說:「爲什麼有的人總是讓人感覺「充滿動洞見」,「具有啓發性」,而有的人卻不能?這並不是因爲他們接觸了更多的信息或者偶然獲得了絕密的書單,而是因爲他們處理信息的方式,看書的方式與衆不同......「,具體大家可以從《朋友圈的尖子生》P124-P129頁尋找答案。

(2)2019年的一些工作從0走到了1,比如標籤庫的運營似乎找到了門道,實時數據中臺拔地而起,數據產品有了一些新突破......,想着年初定的目標(或者說一直的頑疾)有了成功的可能還是非常高興的,激勵着自己繼續去把這些事情做深做透。

現在想來失敗是成功之母這句話還真是有問題,你的成功纔是你繼續成功之母,當初第一次聽到萬維鋼講這個道理還是覺得怪怪的,可能是自己以前做的太差了。

(3)2019年團隊不少成員的表現讓人刮目相看,不知道是什麼原因造成的,也許是某個偶然的安排讓合適的人做了合適的事,也許OKR、合弄制等機制的引入帶來了人員的改變,也許是人多了有了氛圍自然會有人冒出來,也許是對外變現的業務驅動。

無論如何,在更多的碰撞中我發現了大家更多的優點,某次規劃交流會合作夥伴的領導就跟我講,你們的某某臺上演講的很專業啊,你這邊多幾個這樣的人就可以每天睡大覺了,這種感覺很好。

三、數據中臺

今年我寫文章的一個關鍵詞是數據中臺,無論是自己寫得,還是轉載別人的。我們的數據中臺今年也迎來了重大的升級,即演進爲實時數據中臺,具體可以看看我的文章《爲什麼企業要從離線數據中臺走向實時數據中臺?

讓我驚訝的是,實時數據中臺是我們去年底定的目標,但今年發現大量的互聯網公司開始發佈實時數據中臺的文章,比如《OPPO數據中臺之基石:基於Flink SQL構建實數據倉庫》,不知道是否爲巧合。

筆者在《浙江移動數據中臺的建設和應用實踐》這篇文章曾經提到過,數據中臺不是誰的創造,而且數據做到一定程度自然的結果,你看下圖我們的演進歷程,沒有前面的鋪墊,你很難一步到位實時中臺。

數據中臺不需要神話誰,也無所謂誰的中臺更強,數據中臺也沒有標準架構,你適配好業務就可以了,建設的一個原則就是業務化、服務化和開放化。

數據中臺未來的最大挑戰是關於規模化場景的快速賦能水平,其次就是跟業務中臺、技術中臺、AI中臺的協同。

但數據中臺跟任何中臺一樣,始終面臨着局部和全局、穩定和靈活、邊界和職責等等數不清的問題,這個考驗着管理的智慧。

四、數據建模

筆者在《什麼纔是運營商數據中臺最大的競爭力?提到過位置和內容是運營商最需要匠心打造的兩類數據,它們是我們未來變現的根本,數據團隊一直在堅持對這兩類數據進行持續的優化。

1、位置的提升

在數據層面,我們整合了信令、MR、話單、MDT等各類位置數據源,包括通過聚類獲得質心、通過插值讓數據變得更爲連續等等,讓定位精度和數據質量有了一個綜合的提升,同時將OD、路網擬合等應用模型下層到數據倉庫層,從而可以爲各類應用賦能,這是數據中臺思想的傳承。

在技術層面,一方面是推動流處理引擎逐步替換爲FLINK,另一方面則是進一步擴大了易鯨捷數據庫在流數據實時統計上的應用。

在應用層面,無論是城市實驗室產品的升級,還是接收的大量的個性化位置應用需求,都在驅動位置模型的不斷優化,形成了一個良好的閉環,有了價值出口纔有數據模型優化的機會,這個實在是太重要了。

2、內容的提升

行業知識庫的價值很大,而對於運營的挑戰也越來越大,一方面是數據源的不斷增多,比如海量的線下事件,另一方面我們發現已經難以靠以前小作坊式的方式來做行業知識庫了,不僅效率低而且更新速度慢。

這些都在讓我們反思要建立體系化的行業知識庫管理流程,正如筆者在《數據挖掘的軍規》中提的那樣:「好的做事的方法,靠人的口口相傳是沒有用的,寫成書也是沒人看的,只有把這些東西固化到企業的生產流程中去。

我們在考慮建立解析層、映射層再到應用層的三層管理體系,讓數據研發組、行業體系組、數據變現組三組能充分的協同,讓行業知識庫的管理形成一個良性的閉環。

3、應用的模型

今年我們提了六個洞察去賦能公司智慧運營,下面是一頁總結PPT,以客戶爲中心是我們追求的目標,少而精是要遵循的原則,差異化是你的立身之本,但我們與業務的協同還有很長的路要走,這是最無法控制的,也是最大的挑戰,沒有之一。

五、標籤平臺

標籤庫對下連接着數據模型,對上連接着營銷平臺,是我們客戶管理的中心,筆者今年竟然寫了三篇標籤庫的文章:十年的標籤庫建設經歷,我得到了什麼啓示?爲什麼你的標籤庫沒人用?如何有效推進百萬標籤庫的治理?來進行闡述,可見其重要性。

第一篇,第二篇其實在說標籤庫的定位,你首先得解決生存問題,讓標籤庫成爲企業營銷流程中的一環,首先要活下來才能談發展,在傳統企業無論是引入多麼先進的系統或平臺,都首先要找到一個切入點,而這個切入點能夠較好的適配原有的機制和流程。

第三篇則講了標籤普遍存在的只管殺不管埋的現象,並且給出了一個治理案例,這個治理現在已經做了一年,還沒做完,獲得的收穫除了點擊量的上升外,還有就是標籤庫人員在治理過程中認知的提升及相關制度的建立,這是最爲可貴的。

在治理的過程中,我們也進行了大量的技術優化,無論是所見即所得的計算結果、毫秒級的查詢速度、標籤目錄的優化、實時標籤體系的融入、位置可視標籤能力的增強、對外服務能力的提升等等。

標籤平臺現在最大的挑戰除了運營,更多的體現在上游的數據模型是否給力,下游的營銷平臺出口流程是否順暢等方面。

六、數據產品

筆者寫過《運營商大數據對外價值變現的十大趨勢》的文章,表明了當前關於運營商數據變現的基本看法,而數據產品是價值變現的最後一公里,今年我們的神燈產品體系還是有了長足的進步,四大產品體系更加完備,見下圖,有了多個超千萬的數據產品。

今年陸續發佈了城市實驗室、微洞察、失聯觸達、智慧精選等產品,城市實驗室等產品在引來大量的商機的也引發了做數據產品的持續思考,包括:

1、你能想到的行業基本都是紅海,或者門檻很高,或者還沒開化,低垂的果實越來越少

2、你得捨得投入人員去理解這個行業,吃得越透,變現潛力就越大

3、在前面的基礎上你纔能有資格去說產品化、規模化或者生態化,否則,談什麼API賦能都是扯淡,都沒人讓你賦能

4、廣告和金融是王道,繞不開的

考慮到大多數企業並沒有實施對外變現,關於數據產品的方向,筆者特意寫了一篇文章《超越BI,數據產品的前途在哪裏?,建議按數據產品服務的對象去尋找機會,包括賦能管理者、賦能合作伙伴、賦能運營、賦能業務中臺以及賦能外部變現等等。

其實做數據產品特別困難,無論是對內還是對外,它永遠是對業務能力、數據能力、產品能力、運營能力的綜合挑戰,很慶幸,我們團隊裏有着充滿激情的產品人員,每次看到他們忘我的工作,對自己都是巨大的鼓舞,雖然失敗是大多數的,但你不嘗試就沒有機會。

七、運維管理

今年聽到了很多的名詞,SRE,AIOPS,然後我去學習了一下,發現SRE對於OLTP系統也許是新鮮事,但對於做數據的人來講,其實10年前我們就曾經經歷過另一種SRE。

數據的特點決定了數據開發和運維合在一起效率是很高的,因爲在大多數情況下,數據運維最核心的問題其實是確保數據準確性和及時性,而不是前端功能可用性問題(比如報表系統都很穩定,而OLTP系統則完全不同,功能最有可能出故障),而確保數據準確性對於業務的要求其實挺高。

因此,對於非完全生產系統(比如業務上可以容忍某天的數據延遲)來講,數據開發和維護的職責放在一起效率是很高的,誰最有可能快速覈查清楚問題,當然是開發這個數據的人。

即使是現在,大數據的性能優化成爲了非常核心的數據運維問題,運維獨立也的確能帶來很大的收益,但我一直對獨立的數據運維團隊有相關開發的要求。

無論是開發監控體系,還是腳本優化,我都是希望運維自己做,外包一隻項目團隊專門去做數據質量管理平臺很多都是失敗的,遠不如運維自己做的小工具好用。

SRE其實是很基本的常識,Google善於把一個非常樸實的概念規範化,技術化。

現在數據變現逐步進入正軌,2019年運維團隊也充實了隊伍,我們終於可以實施數據領域的SRE,但當初我讓運維團隊抽出部分人員去做開發優化的時候,我還不知道SRE是個什麼東西,後來發現本質都一樣:就是降低各種成本提升運維效率。對於數據的SRE來講,我完全可以新創一個名詞,DRE(Data Reliability Engineer )。

今年在DRE上,我們運維團隊做了四個獨特的事情:

1、考慮到數據倉庫的模型都是內部需求,而且較爲穩定,與業務的耦合性也不高,但其性能又關係重大,因此將數據倉庫開發職能移交到了運維團隊。

2、對於耗時較長的Top代碼進行了大量優化,比如針對網格模型,原來開發的代碼執行一遍要20個小時,而現在優化後只需要3小時,發現DRE在優化上相對於開發團隊有天然的優勢,它們可以結合租戶管理,程序調度,優先級管理等等各種要素權衡利弊給出更好的解決方案。

3、嘗試引入圖數據庫替代傳統的元數據管理系統,通過自主開發圖數據庫的應用已經能夠靈活的實現各種問題的診斷,無論是表的重要性排序,無用表的自動剔除,表到應用的全生命週期監控等等,都讓元數據管理從以前的可視化階段演進到實戰階段。

關於圖數據庫的應用我寫過一篇文章《圖數據庫:一種解決元數據管理「兩張皮」的方法!,爲啥維護人員基本不用原來的血緣分析功能,因爲不是他做的,而且的確太難用了。

4、考慮到HIVE在很多場景的極低效率,運維團隊開始主動對技術棧進行研究,給出了自己新的技術棧去優化存量代碼,對於開發提出了優化建議,下圖是個示例,由於上線的管理仍然在運維團隊,因此讓一隻懂開發的運維團隊去倒逼開發提升技術棧是合理的。

運維團隊還做了大量職能範圍內的事情,比如筆者寫過一篇數據冗餘治理的文章:《艱難的旅程:我們如何用「十步法」完成了一次企業級數據治理的落地?,就是由運維團隊負責落地的。

AIOPS現在成了熱點,但我們做大數據的竟然是後知後覺,每天絞盡腦汁想着用機器學習/人工智能的方法去對外賦能卻忘了要對自己好一點,明年加油吧。

八、我的學習

學習有幾個境界,讀書自學向高手學實踐中學教別人學,2019年自己有了更多體會。

1、讀書自學2018年自己看《得到》超過了1000小時,也讀了很多書,但看得多忘得快,2019年有了些許領悟,開始放慢節奏,一本好書會反覆的讀,對其中的道理會反覆琢磨,當前我關於讀書的最新認知是這樣的:

讀書是要分理解層次的,包括經驗技巧、方法流程、科學原理和哲學視角,越往上通用性越強;讀書是要舉一反三的,比如作者是怎麼做的,我能舉出多少類似的例子,我以前有沒有同樣的經歷,我未來能拿着這個道理做什麼,非常燒腦,但我想只有這樣才能讓一個東西長在你腦子裏,這個符合神經學原理。

2、向高手學我極力提倡做事要站在巨人的肩膀上,我最近有一篇文章《數據挖掘的軍規》,雖然在談管理和流程,其實最終的目的就是要確保做事的時候有更多的資源來幫到你做出正確的選擇,因爲你做的事情別人以前肯定做過。

可惜我在教別人這樣做的時候,自己卻做不到,也可以說懶吧,我並沒有張開臂膀去向業界的大咖學習,2019年接觸的人寥寥無幾,我很少去參加論壇,也很少去參加聚會,週末忙着梳理思路和寫文章,這讓我的視野受到了極大的限制,這個也許叫做性格決定命運。

3、實踐中學我最大的幸運是正好在一隻創新型團隊裏面,正好所有的跟數據相關的工作都會涉及,能夠接觸到大量的具體案例並進行驗證,能夠真刀實槍的去踐行一些理念,因此我說的道理,大多不是自己空想的,也不是抄襲人家的,而是結合自己的實踐的真實體會。

如果沒有了實踐,估計我再也寫不出什麼文章了,遺憾的是我實踐的面還是侷限於數據領域,侷限於運營商這個行業,這個限制了我的思維寬度。我可能永遠也達不到擁有豐富閱歷的人的境界,人生總會有所遺憾。

4、教別人學大家肯定有這個體會,讀PPT是很容易的,但讓你脫稿去演講你就會很慌,怯場是一回事,但更關鍵的是,你並沒有把要講的東西融匯成自己的語言表達出來,它並沒有牢固的長在你腦子裏。

比如我的TD演講稿,即使每一個字每一張圖都是自己寫的,但只要有些概念和圖表還是引用別人的,我就得反覆的琢磨這個東西的本質,直到弄通弄懂。

我寫過幾篇文章《最新發布的《數據資產管理實踐白皮書4.0》,是學習數據管理的最好框架指引!讀透《阿里巴巴數據中臺實踐》,其到底有什麼高明之處?都提到過這個道理。2019年我連續第4年去大學授課,這也是倒逼着自己去備課和學習。

九、公號運營

回想自己剛進企業的情況,我覺得當時自己最需要的一些數據職業方向上的指引,做正確的事比正確的做事重要的多,因爲大多企業的技術天花板不是很高,互聯網公司也不是中國數據領域的基本面,大多傳統企業的數據從業者應該跟我一樣,在1-2年後就會碰到方向性的問題。

但當你知道的時候,可能已經晚了。

而現在要找到較爲通俗的關於數據工作指引性的文章不多,要麼太技術,要麼太雞湯,我希望自己公衆號文章的定位正好處在中間,能給你一些數據技術和管理上的啓示。

因此,2019年我依然以每週一篇的原創來連接更多的人,沒有拉下一週,大家的每次閱讀都是對我最大的褒獎。

2019年自己公衆號做了些營銷引流的事情,比如公衆號的互推,主要有以下原因:

一是自媒體的朋友告訴我公衆號要影響到更多的人就要採用一些引流的方法,特別是今年開了與數據同行微信羣后(已經超3500人了),因此我需要與時俱進

二是它山之石可以攻玉,自己不能一直唱獨角戲,我希望爲大家精選出天下最好的文章,但發現如果自己的號不夠強大的話甚至沒有刪選的權利,因此需要去做引流和營銷,遵循自媒體生存的法則。

要說得還有很多,鑑於篇幅就打住了,2019年馬上要過去了,祝大家2020年繼續進步,與數據同行會一直與你相伴!

作者:傅一平 (微信號:fuyipingmnb)

「與數據同行」開通了微信羣和QQ羣,現已匯聚了3000位小夥伴了,長按以下二維碼加入

筆者也開通了知識星球,歡迎到我的知識星球進行探討。

近期文章列表

數據挖掘的軍規

好好學習,好好思考(2019年第一期)

浙江移動數據中臺的建設和應用實踐

工作六年,我總結了一份數據產品建設指南

五級數據挖掘工程師,你處在哪一級?

不做中臺會死嗎?

BI(商業智能)的未來?

數據分析的道與術

OPPO數據中臺之基石:基於Flink SQL構建實數據倉庫

超越BI,數據產品的前途在哪裏?

數據中臺已成下一風口,它會顛覆數據工程師的工作嗎?

數據產品經理,並不是數據 + 產品經理

數據中臺不是技術平臺,沒有標準架構!

如何有效推進百萬標籤庫的治理?

運營商大數據對外價值變現的十大趨勢

如何深入淺出的理解數據倉庫建模?

艱難的旅程:我們如何用「十步法」完成了一次企業級數據治理的落地?

五年數字大屏之路,「述說」着我們大數據變現怎樣的故事?(附演示視頻)

人工智能現在的技術「好玩」到了什麼程度?

超越平臺,數據中臺的業務化、服務化及開放化!

要看更多,請點擊左下角閱讀原文即可閱讀整理好的所有文章!