對話 CTO〡聽神策數據 CTO 曹犟描繪數據分析行業的無限可能

​​專欄介紹前端

「對話 CTO」是極客公園的一檔最新專欄,以技術人的視角聊聊研發管理者的發展和成長。小程序

本專欄由ONES 的創始人&CEO 王穎奇做爲特邀訪談者。王穎奇曾參與金山軟件 WPS、金山毒霸等大型軟件的核心開發工做;2011 年創立了正點科技,旗下產品正點鬧鐘、正點日曆在全球用戶過億;2014 年,王穎奇在知名美圓基金晨興資本任 EIR,並以我的身份參與十餘家公司的管理諮詢工做;2015 年,王穎奇創立 ONES,致力於提供企業級研發管理解決方案。後端

摘要安全

在國內仍然處於初級階段的大數據跑道上,創立三年的神策數據不斷受到資本的青睞。最開始,神策數據想作的就是私有化部署。「咱們的定位不是作一款 SaaS 產品,而是爲企業提供深度用戶行爲分析的平臺。」接受採訪的曹犟如是說。架構

清華大學計算機碩士畢業的曹犟最初供職於百度大數據部,後來擔任極路由的數據總監,再與其餘三位合夥人一塊兒創立神策數據,擔任神策數據 CTO 一職。起初客戶須要 iOS SDK,曹犟就買書自學寫 iOS;隨着客戶愈來愈多,曹犟就跟着銷售團隊一塊兒見客戶……從作數據到作管理,曹犟正在逐漸轉換人生的角色。app

本期對話 CTO 請到了神策數據 CTO 曹犟,關於數據分析行業將來還有怎樣的想象空間,曹犟聊了聊他的見解。運維

機器能解決的,就不麻煩人了機器學習

穎奇:很高興神策的 CTO 曹犟同窗能接受咱們的訪談。首先能夠講一講神策在數據分析領域,從技術上面有沒有跟別的公司的一些差別?工具

曹犟:差別仍是挺大的吧,我以爲主要是幾個方面。第一點是技術細節,好比咱們選擇的存儲跟查詢是不預聚合的,全部的數據來了都是一條條的存起來,而後作任何一個查詢的時候,都是從最細粒度的數據來查。這樣作的好處是查詢的能力靈活,咱們的維度指標能夠任意選擇,很是多的分析模型,好比漏斗、精確的留存、歸因分析,若是經過預聚合的方式都是很難解決的。第二個好處是時效性,好比收到一條數據,咱們基本能作到十秒以內它就能在查詢接口上體現出來。但不作任何的預聚合的挑戰是,對於查詢、存儲以及數據掃描能力有很是高的要求,這是咱們整個後端研發團隊主要的攻關點。學習

第二點是咱們認爲數據採集應該是從需求倒推,先看須要數據用在什麼地方,再決定採哪些數據,結合客戶的總體技術架構,決定用哪種數據採集方案。因此咱們有專門的數據採集團隊。咱們發佈了安卓全埋點採集白皮書,至關於貢獻出了七種安卓全埋點採集方案的源代碼。咱們全部的數據採集的 SDK 和工具都是開源的,但願能促進整個行業的發展。

第三點是定位。咱們不是傳統的 SaaS 公司,而是企業服務公司,有點相似 ONES。同時咱們絕大部分的客戶都是作私有化部署的。

穎奇:其實 ONES 也是同樣。大量的中小型公司仍是會用 SaaS 的輕量級部署;中大型以後的話,咱們的大客戶都仍是選擇私有化部署。

曹犟:那咱們這點仍是挺像的。不過咱們如今 80% 的客戶是私有化部署,20% 是作 SaaS,咱們可能跟不少公司不同,咱們最開始沒有 SaaS 版本。

最開始咱們就想作私有化部署,有幾點考慮。第一點是幫助企業實現數據資產的積累。第二點是消除客戶安全隱私的顧慮。早期咱們的客戶以創業公司爲主,客戶對於安全隱私不是特別在乎。後來作到了金融行業,他們都有不少的合規的要求,而咱們從一開始就是作私有化部署的,因此如今在這一塊作的比較順利。

第三點仍是定位。咱們對本身定位不是一個 SaaS 產品,不只僅是一個數據分析產品,而是一個 PaaS 平臺。咱們很是看重客戶是否可以基於咱們的產品和系統去作對數據的深度應用,可以直接訪問到原始數據,直接利用咱們的存儲和計算資源。咱們搭了一個數據平臺,客戶能夠寫本身的 MapReduce、Spark。咱們關心客戶的內部系統能不能跟咱們的作對接,因此將本身定位成 PaaS 平臺。

之前咱們只有神策分析一個單一產品,今年咱們發佈產品矩陣,就至關於把神策分析裏面一些抽象的或者說一些公共的數據處理能力,從採集、傳輸、存儲到查詢給抽象到了底層,而後神策分析就變成了這個平臺之上的一個應用。同時咱們還有神策智能推薦、神策客景、神策標籤管理、神策自動化運營,它們是共用下面的平臺提供的數據處理能力的。

穎奇:剛纔您講到咱們如今在服務幾百個客戶的私有化環境,那請問神策是怎麼樣來去監控或者說是維護、更新,來使得這些差很少大幾百個實例都可以穩定運行呢?

曹犟:首先系統自己的魯棒性和自己的可恢復性,或者說自己可以持續的運行的能力確定是要比較強。第二點是說,有點像之前 Google 的 Burg,或者說百度一些相似的系統。在客戶容許的狀況下,咱們會去監控這些系統的運行狀態,不會拿客戶的隱私,出了故障以後經過咱們跟客戶協商的幾種不一樣的通道把這個故障給報出來。第三點是安裝部署。可是對咱們來說,產品設計上早期就是隻有私有化部署版本,對公有云上面的各個組件沒依賴,再加上咱們在這一塊又作了很是多的自動化的工具。這也表明了咱們一個理念,能用機器和程序解決的問題就儘可能不要讓人來參與。

穎奇:那神策如今真正作產品技術的團隊是否是一些作核心產品,還有一些多是面向客戶的?

曹犟:咱們團隊不是這樣劃分的,咱們沒有定製開發,因此咱們的實施會比較輕,實施主要是負責整個環境的搭建部署、數據的接入、數據的校驗、產品的交付,更側重於怎麼樣幫助用戶用好這一塊。由於客戶有時候會對咱們的技術特別好奇,研發會跟客戶溝通,同時研發也會兜底解決一些技術問題,可是總體上研發是專一於咱們幾個產品自己,因此咱們大概是分爲產品、後端、前端等幾個團隊。

穎奇:那您以爲神策在團隊風格上有什麼特色呢?

曹犟:從整個團隊來說,咱們在技術上是很開放的。對於銷售的要求也都是能講技術實現,能演示產品。同時,跟銷售配合打單的不是產品,咱們是有技術售前跟業務售前。業務售前更多的是更詳細的來給客戶傳達咱們的產品價值,具體在哪些方面能獲得怎麼樣的一個價值,能發揮它的做用,怎樣提高效率,怎樣節省成本等等。

技術售前都是技術上很是全面的人,咱們的技術售前的職責包括 POC,他們是要直接幹活,他們直接要去登機器,去安裝去部署,有問題去查日誌,去查記錄,去寫 SQL,而後去作相似於寫一些工具來導數據等等。

從寫代碼到作管理是一種強烈轉換

穎奇:接下來能夠講下您我的的履歷。

曹犟:08 年剛去百度的時候是在百度知道團隊作個性化推薦、作檢索,而後就跟文鋒、力力、耀洲,就咱們四個神策創始人,慢慢的就變成到一個團隊,先作百度日誌平臺,再作用戶行爲分析。後來又作了 UDW,就是用戶數據倉庫;作了 User profile,就是用戶畫像;作了 ID-Mapping 的相關的一些工做。14 年 4 月份我離職去了極路由,作技術總監。15 年就咱們一塊兒創業作神策。

穎奇:那聽起來的話就是一直是在作數據相關的。

曹犟:對,一直是在作數據,而且我以前一直是作技術不是作管理的。在極路由雖然叫技術總監,但也仍是本身寫代碼。一年之前我還在寫代碼,可是如今沒有時間(寫代碼)了。

穎奇:大概花了幾年時間去作一個這麼強烈的轉換,大概兩年半的時間?

曹犟:對,我以爲這個還在轉換過程當中吧。我一開始在神策負責 DataLoader,其實就是數據導入。後來我又去學寫 iOS,跟另外一位作機器學習的同事參考國外開源的 SDK 分別作 iOS 和安卓。隨着接入更多客戶,我就承擔了至關一部分的售前工做。後來團隊從只有研發逐漸的擴展,運維、技術支持、售前,再到項目經理、實施工程師。團隊的組建不是有意識的招人,而是跟着需求來。人愈來愈多,逐漸沒有辦法把精力放到寫代碼上,天然而然地就再也不寫了。

更大的需求在產業更深處


穎奇:那咱們講講您對整個數據分析這個行業將來的一些見解吧,關於這個行業未來會怎麼發展?它在整個大行業裏會產生一個什麼樣的效果?

曹犟:數據分析,或者說咱們作的用戶行爲分析這個行業,過去三年咱們也遇上了好時候。一方面是行業競爭激烈,客觀上需求在增加;另外一方面包括咱們一些友商在內,很努力的去教育市場。從互聯網行業向外發散,非互聯網行業,像銀行、券商、航司,他們都對這個概念是有意識的,精細化運營、數據驅動、增加黑客他們都以爲很好,因此咱們是碰上了一個好時候,用戶行爲分析理念會愈來愈深刻人心。這是第一點。第二點是落地的要求也會愈來愈高。對於互聯網行業,只要提供一個好用的工具,工具作的效率很高就能用起來。傳統行業雖然也有意識,可是幫助他們來落地,工具再好用都不夠。這就是咱們的服務愈來愈重的一個緣由,因此落地也會愈來愈難。

例如《跨越鴻溝》的理念,一開始只有小部分人最願意嚐鮮,思惟最活躍的那部分人用,你的服務會很輕。如今咱們正在慢慢地跨越鴻溝,從早期嚐鮮者到早期大衆,可是早期大衆用這個東西可能就須要咱們提供更多的東西,不只僅是一個工具,還須要好的方案、案例,別人怎麼用的,同行怎麼用的,互聯網公司怎麼用的,這些事情要求愈來愈高。

穎奇:那我能這麼理解嗎,您認爲整個的數據分析行業未來是會比大家在最先期創業的時候想象的空間還要大。

曹犟:要大不少倍,咱們早期認爲只有互聯網公司纔會用咱們的產品。如今咱們總結就是,若是對方有一個線上的服務,無論是 APP 仍是網頁仍是小程序,只要對方所在行業有充分的競爭,甚至像 CCTV、人民日報,這些都是咱們的客戶,最先很難想到。

穎奇:其實這個跟咱們如今作 ONES 這個產品是很像的。早年咱們認爲可能客戶都是作 APP 的、作研發的,可是如今包括你剛剛說的人民日報,他們也有來採購咱們了。

曹犟:對,這個從釘釘就能看出來,他們也覆蓋了不少偏傳統的一些企業。我以爲這是一個很好的事情,由於客觀上咱們是幫助整個社會、整個大的行業提高數據的使用效率,咱們企業的願景就是往這一塊。

穎奇:ONES 實際上也會講到願景,咱們的願景是幫助客戶更好更快地發佈產品。咱們也能夠來聊聊神策的願景。

曹犟:神策的願景是重構中國互聯網數據根基。咱們最先主打的神策分析這個產品,客戶確定會用得服務愈來愈深,會愈來愈到傳統的行業裏面去。可是從另外一個方面來說,這裏還有一些新的需求。客戶花這麼大的代價採集了這些用戶行爲的數據,僅僅作分析,雖然分析能解決不少問題,可是也只發揮了 30% 的價值,剩下 70% 的價值,咱們就有一些其餘的產品。

穎奇:就要考慮要怎麼用它,纔可以真正推動業務增加。

曹犟:咱們很是多的媒體、電商類客戶有個性化推薦需求。零售、券商、航司客戶有精細化、自動化、高效率運營高價值用戶的需求,因此咱們的自動化運營產品能夠解決這些問題。「神策客景」則主要是解決像咱們一類 SaaS 公司的需求,他們都面臨客戶續約的問題。因此咱們仍是用那一類數據,可是從不一樣的場景上來作了新的一些產品出來。

穎奇:就是從收數據、分析數據、看數據到用數據,真正的把這個數據用起來。我還想問一下,您最近有沒有看一些以爲已經影響到您工做、管理或者技術上的書。

曹犟:我今年一共讀了 74 本書,最近在看《從新定義公司:谷歌如何工做》,有幾個觀點我特別承認,例如 Google 的招聘觀念是與其花那麼大的代價招 50% 水平的人,而後花大代價去培養他們,但願他們能表現到 90% 的水平,還不如一開始就花大代價去招 90% 水平的人。還有薛兆豐的《經濟學講義》,也有一些很好的觀點。平時我也會作書評、讀書筆記,會把書裏好的部分記錄下來。

穎奇:好的,今天有不少收穫。很是感謝您的分享。

本文做者:王穎奇,聯繫方式:wangyingqi@gmail.com

相關文章
相關標籤/搜索