思否技術人訪談 | 「匪氣」 CTO 易觀郭大俠,追尋數據的靈魂之旅

稿定設計導出-20191224-181729.png

技術人:易觀 CTO 郭煒
本文采編:SegmentFault COO 江波 Nadia算法

像找媳婦同樣找人才,真情換真心

Nadia:能夠簡單介紹一下您此前的求學和職業經歷嗎?服務器

郭煒:我是北京人,高中畢業在北大讀了七年書,直到研究生畢業。我從研究生階段學的就是數據,那個時候還不叫數據挖掘,叫信息與信號處理,畢業論文題目是《過程神經網絡的客戶流失分析》,那個時候(2005 年)尚未 AI 人工智能。畢業後我去了 TereData,美國當時最大的數據倉庫公司,後來去了 IBM、中金、萬達、聯想,都在聚焦大數據平臺建設及項目應用的落地。仍是會感受在大公司在數據創新應用上的體系化管控流程更復雜,也受到了易觀創始人於揚的感召,2016 年加入易觀。微信

Nadia:2016 年易觀是什麼狀態?好像那個時候我印象裏的易觀仍是一個作分析報告的公司?網絡

郭煒:當時的易觀其實已經開始經過數據產品爲客戶數據洞察賦能了,也開始建起了技術團隊,可是整個團隊能力其實還不夠達標。甚至那個時候,市場上還不太理解技術背景到易觀來作什麼。因此,我中間有一個階段,從新調整了技術團隊,更加聚焦數據架構、算法等方向。架構

Nadia:你加入的時候,易觀的商業模式是已經規劃得很清晰了,仍是說也是摸着石頭過河?併發

郭煒:那時候,易觀的創始人於揚一直堅持要作產品和技術,但具體是哪一個產品,哪條產品線能作到什麼程度咱們都不知道,可是咱們經過易觀千帆(移動互聯網產品對標分析平臺)邁出了第一步。工具

Nadia:2016年加入易觀以後都遇到了什麼挑戰?oop

郭煒:你們可能都看過 「創業曲線」, 一開始是特別快速的上升,而後斷崖式下跌,在谷底沉寂一段時間後還要再跌一下才能慢慢曲線上升——其實創業經歷都是這樣的。學習

timg.jpg

我剛進入易觀的時候,你們都很樂觀,以爲易觀有品牌、有想法、有數據源,只是缺技術。我當時也很是樂觀,以爲僅僅是把技術弄起來,這個簡單。但親自去作時候才發現,咱們向技術公司升級的路上要過的山頭真的很大,遇到的問題特別多。大數據

以前我其實已經不少年不寫代碼了,但那時候沒辦法,尤爲一些核心的模塊只能我本身上。2016 年,易觀千帆可以承接分析的用戶月活躍數據也有接近一個億了,當時遇到一個很大的挑戰就是數據接收併發的問題。在千帆剛開始服務客戶的時候發生過一次比較嚴重的事故,整整 3 天,系統 down 在那裏沒數據。我印象特別深入,6 月份,CEO 找我談話說「大家很辛苦,可是這個問題怎麼解決呢?」當時我也不知道怎麼解,後來沒辦法,我從新學了 Lua 語言,而後用了兩天時間把代碼從新寫了一遍,問題解決了。這是當時的狀態,整個技術團隊對於技術與業務結合的理解其實都還不夠,也是從那個時候我發現創業團隊招人最重要,人才是核心

Nadia:創業團隊很差招人吧?

郭煒:咱們開源項目 Dolphin Scheduler 的核心貢獻者代立冬當時是我去找他吃了多少頓飯才說服他加入的。他是第一個大數據方向我以爲不錯的人才,也是從他開始,我開始像找媳婦同樣找人才,到如今也是跟團隊和人才們聚會的時間比陪家人的時間長得多。就像糟糠之妻,那個時候你什麼都沒有,經過真情換真心,把這個團隊從沒有到 1,到 3,5 個,到如今 100 多人慢慢成長起來。

Nadia:大家招人的時候會比較喜歡什麼樣的人才?

郭煒:我以爲招人第一是看價值觀,是否是真的想作數據這個事,談到數據的時候,是否是眼睛會有亮光,會有光芒,這個很重要。第二個是看潛力,邏輯性、學習能力、閱讀能力、溝通表達能力行不行?第三個纔看究竟如今能力怎麼樣。

究竟會什麼、會不會 Hadoop、懂不懂大數據這都不重要,若是你真的很想作這個事,很願意去學,咱們就願意給你這樣的機會。不是每一個企業都有這麼大的六個億的月活數據讓你去學習,也沒有像招商銀行、噹噹這樣的客戶可以讓你去實踐。

郭大俠的開源情懷,易觀技術的變與不變

Nadia:2016 到 2019,您加入易觀 3 年,幫助易觀從一個大衆認知裏的分析報告公司,轉型爲一個產品技術驅動的大數據公司,技術上發生了哪些變化?

郭煒:變化真的蠻多的,下面的圖片大概體現了易觀從 2016 年到 2019 年的技術架構變遷。

微信截圖_20191223172410.jpg

從產品上,2016-2017 年,咱們主要的產品仍是易觀千帆、易觀萬像,它本質上是易觀自有的大數據平臺。到 2018 年的時候,咱們發現本身的大數據技術是能夠幫助更多企業的,咱們開始作技術輸出,開始有了易觀方舟,今天已經成爲了包含用戶行爲智能分析、智能運營及技術開放的智能用戶運營產品套件。

咱們本身原來的東西特別龐大,6.8 個 PB,幾百臺服務器,不是每一個企業都用得了,因此在 2018 年咱們開始把這麼複雜的大數據組件經過一個新的架構來精簡,咱們但願幫助企業方也都能用上好用的大數據平臺。

這個新的架構叫 IOTA(Big Data IOTA),它的核心思路其實就是邊緣計算——原先大數據都是將全部的數據存到雲端去計算,但如今其實咱們的手機都愈來愈厲害了,因此個人思路是要經過邊緣計算的方式,在手機端先作好一些計算,雲端只作存儲和查詢,這樣效率就大大提升了,當年好多的大數據集羣的東西濃縮在一臺服務器上就能夠完成。

把咱們的本身的技術,經過新的架構迭代抽象成一個可以讓用戶去用的產品和技術(易觀方舟),這其實就 2018 年咱們在作的事情。

到 2019 年咱們又發生了變化,在過去易觀方舟只作用戶行爲分析,今天已經實現了智能運營功能,後來咱們發現不少用戶但願基於本身的需求去作一些二次開發。咱們把易觀方舟 PaaS 化,從一個產品變成了一個平臺。好比說你要作推薦,咱們把相關數據經過 SDK 全都收集上來了,把非結構化數據整理好變成告終構化數據,基於這些數據你本身的分析師就能夠在裏邊作一些推薦引擎,用戶畫像等等。

2020 年,咱們會進一步把這個平臺作得更穩定,但願除了咱們以外,也能夠有更多的開發者在上面開發一些東西。

Nadia:因此從明年開始,其實也會作一些開發者生態的事情?

郭煒:其實咱們今年也在作,易觀方舟自己是一個商業產品,但其實咱們有免費版本。私有化、單機服務器的這個版本咱們把它免費了,叫易觀方舟 Argo。在這個以前,國內如今尚未私有化部署的用戶數據分析免費產品。私有化部署,數據放本身這裏,用戶放心。普通開發者能夠直接把這個產品接入本身的後臺,一臺服務器,你就能夠開始作用戶行爲分析。未來咱們但願基於易觀方舟 Argo,能夠有各類各樣的新的小東西開發出來,咱們鼓勵你們開發各類新玩意兒,開發完之後你能夠本身用,能夠把它 Share 出來咱們幫你去售賣,也歡迎你基於咱們的產品開源,作開源組件讓你們都去用,由於易觀方舟 Argo 自己就是免費的。

Nadia:剛剛提到了 IOTA 架構能夠實現更高效的數據處理速度,可否在具體應用層面爲咱們解釋一下它的價值?

郭煒:好比說拿 SegmentFault 舉例,最近 SF 某一個渠道註冊留存超過七天的用戶在最近一週沒有登陸,你想發郵件作一次召回。原先你須要提一個需求給技術,他須要跑個 SQL,SQL 跑不過可能還得跑 ETL 腳本,兩三天才能給到你,公司需求多了之後或許還須要排期。但在基於 IOTA 架構的易觀方舟裏,你只須要勾選一些條件,不到三秒鐘,這個數據立刻就出來了。

幾秒內,可能咱們就要查 100 億條數據,出一個結果,在技術上是很是難的。因此 IOTA 架構解決的核心問題是在大量數據中作一個複雜查詢,秒級把這個數據查回來。那麼隨之而來的其實就是幫助咱們將數據能力平民化,讓數據分析師以外的角色也能夠用這個產品去作點數據分析,而不須要大數據工程師每天去給你寫腳本。

Nadia:提到數據處理效率,您以前還曾提到過「數據河」(Data River)的概念?

郭煒:數據河實際上是 IOTA 抽象化的東西。過去雲廠商常常提到「數據湖」——把數據所有裝進去,它的好處是把它存下來了。但你真的想去用這個數據的時候成本就會愈來愈高,數據越放越多,慢慢就會變成數據沼澤。咱們作的實際上是讓數據流動起來,經過 IOTA 這樣的架構,數據是直接從產生端流向消費者,再也不通過數據湖,再也不須要工程師去寫 ETL。

Nadia:那有什麼是這三年一直堅持不變的?

郭煒:咱們有兩個基本點是不變的,我把它稱之爲技術價值觀——一是開源,二是雲化

今年咱們的開源項目 Dolphin Scheduler 入選了 Apache 基金會,但它其實不是咱們第一個開源項目,咱們此前已經開源了不少個項目,這是咱們慢慢運營、擁抱開源的成果。

2.png

數據是有靈魂的,我將用今生去追尋

Nadia:如今不少公司都在談本身是數據驅動,固然大部分都是假數據驅動,在大家的客戶裏面,有沒有哪一個公司是大家認爲他真的已經把數據應用到很是好的案例?

郭煒:在咱們客戶裏,有一家第一梯隊的股份制城商行作得很是不錯。其實即使是互聯網公司,也不必定真的能把「數據驅動」這個詞落下去。數據驅動是一個管理思惟,不是一個工具能搞定的事兒。

咱們見過這家銀行用北極星指標(即全部員工都要關注的惟一關鍵指標),這個指標對招行來說是它的月活,他的營業員都要扛這個。使用的時候,咱們能感受到他們的 APP 確實好用,就是由於 APP 每一個的點擊、每一個功能模塊分欄目的流程,都是有明確分析路徑的。這點不少互聯網公司都作不到,它跟一個公司的管理階段和成熟度是有關係的。

Nadia:大數據這幾年一直是一個熱詞,你我的是如何去理解大數據的?展望一下將來,它背後真正的價值是什麼?

郭煒:我有一個座右銘叫數據是有靈魂的,我將用今生去追尋。

從整個技術和行業來說,我以爲是會愈來愈火的。由於人們經過各類各樣數字化的手段,能把這個現實世界變成數字、信息和數據,再基於此去作相關的分析。

最先我作 BI 的時候,報表全都是內部 CRM 產生的。到後來你們拿 APP 的點擊作分析,如今又有了人臉識別,線下動做的識別,聲紋的識別……其實一我的在線下的全部行爲都是能夠採集到的,數據把這個世界自己數字化,那麼怎麼用起來呢?每個行業、不一樣的賽道其實用法都不太同樣,將來再加上 5G、IoT……可能你們在這會議室裏面就跟黑客帝國同樣,擺一個姿式、說一句話,這些服務就都到了,這些其實都是數據的應用。

對於大數據公司來說挑戰還蠻大的,不少數據公司後來都變成項目型公司了,他們就沒有辦法去作更好的增加。2016 年先後,國內大概有十幾家公司都在作易觀千帆同類型的產品,如今作得好的只剩兩家了。易觀方舟如今可能還有不少的競爭者,在這個賽道里面未來可能也只會留下幾家。 對於將來,易觀仍是根據用戶實際的需求去解決用戶的問題,大數據不是一個特別容易作的賽道,每一個能堅持下來公司都值得尊敬。

CTO的匪氣:管理不是兩利相衡取其重,而是兩害相較取其輕

Nadia:最後咱們來聊一聊創業這個話題,做爲一個曾經一直在大平臺的技術人,您是怎麼看待創業的?

郭煒:創業自己九死一輩子,哪怕易觀到如今其實依舊戰戰兢兢,由於其實不少時候你不知道什麼是對的。創業是一件頗有挑戰也頗有意思的事情,它的魅力和風險都來源於未知,你天天面臨的狀況都是未知的狀況。

對於作技術小夥伴來說,我建議若是你尚未商業思惟就先不要創業。走到創業這條路上,你會發現技術實際上是創業的必要非充分條件。創業沒有技術不行,光有技術也不行。由於在商業邏輯面前,你再厲害的技術,若是不能爲用戶提供價值也是僞技術。因此對技術小夥伴來說,商業思惟比技術能力更重要。其實不必定是技術大牛,可是你有商業思惟,會和人溝通,可能就能成爲一個很好的技術創業者。

Nadia:你們都叫您「郭大俠」,爲何說不少 CTO 身上必定要有匪氣?

郭煒:講一個具體的例子,不少時候你們都會以爲管理決策是擇優,其實大部分選擇並非兩利相衡取其重,而是兩害相較取其輕——面前有兩坨翔,一坨大一坨更大,你吃不吃?不吃馬上翻一倍,早晚必須吃,那就必需要殺伐決斷。

匪氣在於,你可能根本看不清楚將來到底是什麼樣,這兩個都不太好,但你必須果敢地選一個不那麼差的,而後一邊鼓勵團隊一邊被各類 PK。你要把這個扛下來,而不是文縐縐地調研一下這個再看看那個。沒時間讓你看,就這麼幹了!

Nadia:因此這個其實多是不少技術人可否成爲一個領導者挺關鍵的一點。

郭煒:對,由於技術人廣泛很是客觀,邏輯性很強,可是作 CTO 意味着你必須常常在很是沒邏輯的時候拍一個你認爲很差的方案。初級管理者可能體會尚未那麼深,但高級管理者必定會體會到:世間沒有那麼容易的事情,全都是很難辦的事,只是看你選哪個。

採訪手記

今年9月底,我第一次在易觀北京辦公室見到了江湖人稱「郭大俠」、易觀的 CTO 郭煒。歷經三個月,「SegmentFault 思否」技術人訪談欄目終於在新年之際上線了。而這三個月, 秒算引擎 2.0 升級上線,易觀方舟 Argo 社區收穫了來自用戶的開放源代碼,OpenTechnology 技術開放策略發佈,易觀快馬加鞭奔向 2020。

數據行業是公認的集「髒活、累活、苦活」爲一體,然而「入行」十九年,他身上卻絲毫看不到疲倦的影子。熱愛讓他苦中做樂,兩個小時聊天式的交流,從技術到創業,從我的經歷到公司業務,他的真誠、嚴謹、熱愛與俠氣展露無疑。如果個晚來天欲雪的黃昏夜,真有衝動道一句「郭大俠,能飲一杯無?」

(本文完)


「思否技術人訪談」是 SegmentFault 上線的全新訪談類欄目,咱們但願經過採訪一線技術領袖,將他們真實的成長經歷以及對技術的熱愛傳遞給更多人,幫助技術人成長。本專欄由 SegmentFault COO 江波 Nadia 進行採訪和撰稿。

尋求報道:nadia@sifou.com,申請轉載:pr@sifou.com

相關文章
相關標籤/搜索