DataPipeline CTO 陳肅:咱們花了3年時間,從新定義數據集成

目前,中國企業在大數據流通、交換、利用等方面仍處於起步階段,可是企業應用數據集成市場倒是龐大的。根據 Forrester 數據看來,2017 年全球數據應用集成市場純軟件規模是 320 億美圓,若是包括人工在內,將達到 3940 億美圓。面試

 

在數據應用集成領域中,既有 Oracle、SAP、微軟、Informatica 等傳統的 IT 大佬,更有衆多的創新型企業,其中 DataPipeline 就是一家經過提供批流一體的數據融合、數據清洗、數據同步等服務,幫助企業鏈接內外部數據孤島,實現數據交換與融合的公司。近日,DataPipeline CTO 陳肅接受了TGO鯤鵬會的專訪,談及了 DataPipeline 的發展狀況、數據應用集成行業、公司管理和我的經歷等,如下爲採訪實錄:算法

 

1、打破數據孤島,從新定義數據應用集成

 

TGO 鯤鵬會:請您詳細介紹目前 DataPipeline 的主要戰略和市場佈局?數據庫

 

陳肅:DataPipeline 的目標客戶集中於金融、零售、製造,地產、互聯網行業,服務客戶主要具有如下特徵:大中型企業、數據價值密度較高、重視數據的時效性。網絡

 

差別化戰略包括:架構

 

一、支撐有大數據應用需求的大中型企業;
二、應用能夠部署在雲上;
三、實時性要求高,與之前批量化的不太同樣;
四、可以支撐業務、數據、架構的變化;
五、用戶體驗方面,更強調自動化、智能化。框架

 

TGO 鯤鵬會:DataPipeline 所處賽道是數據應用集成,您是如何理解這個行業?運維

 

陳肅:目前,中國企業在大數據流通、交換、利用方面大部分還處於起步階段,關鍵緣由是沒有作好數據集成、數據清洗、數據同步等基礎工做。

我認爲,接下來數據應用集成將來會產生 3 個變化:

第一,相較過去而言,會變得更加複雜。原來可能只有一些數據庫中的結構化數據,可是如今有結構化、半結構化、非結構化數據,雲上、雲下、混合雲的途徑,數據庫和數據倉庫的對象存儲等。

第二,時效性更強。之前數據流轉比較慢,商業總體運轉的速度也會慢一些,但隨着企業實時決策要求的提升,咱們須要根據數據作到及時分析,所以時效性要求也隨之提高。

第三,高擴展性、靈活變化。隨着社會的快速發展,業務部門對數據的需求也在時刻變化。這就意味着用戶的 IT 架構、軟件和總體發展戰略都須要適應這種變化。

複雜度變高,時效性變快,架構變化的程度加深,是數據使用面臨的三大挑戰,但相應地也會產生一些新的機會。機器學習

 

TGO 鯤鵬會:您認爲數據應用集成有多大的市場規模和潛力呢?分佈式

 

陳肅:Forrester 數據代表,2017 年全球數據應用集成市場純軟件規模是 320 億美圓,若是包括人工在內,將達到 3940 億美圓。工具

 

Gartner 數據也代表,應用數據集成的細分領域 iPaaS 在 2017 年首次突破了 10 億美圓,增加 72%。

 

TGO 鯤鵬會:當前數據應用集成賽道有哪些競爭對手呢?競爭焦點主要彙集在哪方面呢?

 

陳肅:參與市場競爭的企業不少,在數據應用集成領域,既有 Oracle、SAP、微軟、Informatica 等傳統的 IT 大佬,也不乏一些創新型企業。但相對新一代雲化、大數據實時化的數據應用集成方面來講,新玩家偏少。在中國,數據應用集成企業其實是比較缺失的。

 

目前,在數據應用集成這個賽道,一些企業偏重數據集成,一些偏重應用集成。還有一些諸如阿里這樣作數據中臺的企業,他們的覆蓋面與創新企業相比更爲普遍,其中或多或少都會有一些差別化,而在基礎技術創新方面的企業數量更少。

 

另外一方面,市場上也有一些應用長達 10 年的工具,它們都是基於傳統的軟件架構;而新出現的工具則偏雲化,主要部署在雲上,以分佈式架構支持大量數據和實時應用的工具仍是比較少的。

 

TGO 鯤鵬會:您認爲 DataPipeline 的主要優點體如今什麼方面呢?DataPipeline 採起了哪些戰略?目前達到了什麼樣的效果呢?

 

陳肅:在技術上,DataPipeline 聚焦流式數據處理、高性能同步,快速解決數據融合問題。

 

在產品上,DataPipeline 是一家爲企業提供批流一體數據融合服務的公司。經過提供數據的批流一體處理、任務調度、數據質量管理、可視化運維與監控、API 數據接入、元數據管理等功能,幫助客戶更敏捷、高效地實現複雜異構數據源及目的地數據融合等綜合服務,爲客戶靈活的數據消費需求提供強有力的技術驅動。

 

DataPipeline 已經成功服務了星巴克、喜茶、叮噹快藥等多家行業領先的企業客戶,同時與數十家產業上下游合做夥伴創建了戰略合做關係。

 

TGO 鯤鵬會:DataPipeline 下一步的規劃是什麼呢?

 

陳肅:會繼續堅持既定的策略,以技術驅動來服務客戶,同時會持續投入資源在客戶成功上,爲客戶帶來更大的價值。

 

2、平時多流汗,戰場少流血

 

TGO 鯤鵬會:目前您在團隊中打造什麼樣的團隊文化,或者說有什麼樣的團隊氛圍及規則?

 

陳肅:DataPipeline 有明確的企業核心價值觀,總結下來是客戶成功和我的成長,具體有六條——即不忘初心、深挖本源、客戶第1、言出必果、技術驅動、無私分享,技術團隊的文化和這六條核心價值觀一脈相承。

 

做爲一家 ToB 企業,咱們首先強調客戶第一原則。運維、測試、開發都要把定位和解決客戶問題放在本身工做的最高優先級。爲了減小對平常研發工做的干擾,咱們創建了輪崗制度,保證每週都有一個專門的團隊來應對客戶的支撐需求。客戶環境是複雜的,有時候值班同窗會遇到難以解決的棘手問題。不管什麼時候,只要值班同窗將問題拋到 On Call 羣裏,公司的技術骨幹會馬上進行問題會診、及時給予應對策略和建議,甚至馬上遠程接入客戶現場協助定位問題。固然,熬夜加班總歸是很差的,因此咱們有完善的倒休制度,保證員工身心健康。

咱們每週至少會有一次團隊的內部分享,分享內容能夠是技術趨勢、工做中的設計心得和技術點,也能夠是健身技巧和旅遊經歷。一些較好的技術主題,經提煉後會由團隊成員去開源社區的 meetup 進行分享。

咱們強調技術驅動,只有可以經過程序解決的問題就不要採用「人肉」的辦法,所以測試和運維團隊的同事有很大一部分工做也是寫代碼,經過自動化測試和自動化運維來提高效率。若是研發和測試中遇到問題,我會鼓勵他們儘量地找到根本緣由,用優雅的方式完全解決問題。正所謂平時多流汗,戰場少流血。

 

TGO 鯤鵬會:您在招聘過程當中更看重成員哪些方面?

 

陳肅:面試時候主要看技術深度和理解力。

 

通常來講,求職者若是有好的學校背景,經過面試的機率要高一些,但咱們也不是隻看學校背景。面試過程當中,求職者研發經歷的真實性、體現出的技術深度、是否有關注技術論壇和閱讀開源項目源碼的習慣,這些都是咱們着重考慮的點。

試用期的員工,咱們會重點考察分析解決問題的能力以及抗壓能力。

 

TGO 鯤鵬會:您是如何對團隊成員作激勵?激勵的措施主要有哪些?

 

陳肅:2018 年初,咱們創建了季度之星評選制度,旨在獎勵每一個季度作出突出貢獻或取得顯著進步的員工。在過去一年多時間裏,得到季度之星的員工既有早期的技術骨幹,也有新加入同事。咱們經過這種形式選拔優秀的人才,賦予更多的責任,給予相應的回報。

 

隨着公司人員的增加,咱們在今年引入了績效考覈,以結果爲導向評估員工的實際產出,做爲晉升和調薪的主要依據。

技術人員選擇一家企業,除了收入因素外,技術上的成長性也是重要的考量。DataPipeline 鼓勵員工積極參與開源項目的研發,給予員工專門的時間作開源相關的工做。公司也樂於投入資源舉辦或參加技術論壇,讓員工和領域內的高手交流,這也是你們以爲公司技術氛圍很好的重要緣由之一。

 

TGO 鯤鵬會:您平時會鼓勵團隊成員進行創新嗎?主要是經過什麼樣的方式呢?

 

陳肅:創新是 DataPipeline 在競爭激烈的數據集成市場的生存之本。

 

咱們公司的產品是基於開源框架 Kafka Connect 作的產品,爲了適應業務須要,咱們在這個開源框架基礎上作了大量的改造和特性加強,包括端到端數據同步一致性、批流一體、源變化檢測和自動適配,優化了框架的任務調度機制。

任何團隊成員,只要有好的想法或者發現值得改進的點,均可以自由組織討論會,邀請相關同事一塊兒論證方案。當方案經過後,會根據優先級進行排期,歸入研發計劃。咱們特別重視員工本身提出的優化點,在評選季度之星和績效評估時,咱們也會優先考慮做出過這方面貢獻的員工。

3、理解客戶核心需求,尊重行業發展規律

 

TGO 鯤鵬會:能分享一下您的創業經歷嗎?在創業過程當中,您印象最深入的是什麼事情?從中有什麼收穫嗎?

 

陳肅:2010 年,我從中國科學院博士畢業後,第一份工做是在中國移動研究院作精準營銷平臺的算法工程師,後來逐步升任項目經理、用戶行爲實驗室技術負責人。

 

2015 年初,我離開了中國移動研究院,和朋友開始了第一次創業。咱們作了一家在線教育公司,主打英語培訓,最初的想法是但願用機器學習技術,幫助用戶提高學習效率。公司從 36 氪孵化器起家,得到天使輪融資,成爲第二期畢業企業。

在初期,爲了獲取流量,咱們嘗試了作一些引流功能,例如實時的托福考位查詢和考位預約。靠着這些引流應用,咱們的用戶日活增加很快,應用程序在 App Store 和主要國內 Android 市場的細分品類下的排名也長期位於前列,所以順利拿到了 A 輪融資。

A 輪以後,咱們開始作流量轉化,開發了一系列付費課程以及配套的自適應學習系統。爲提高直播交互體驗,咱們自研了一套不依賴視頻流的直播系統,可以以極低的帶寬需求進行課件直播,同時減小網絡卡頓的影響。2016 年教師節,這套系統正式上線運營。以後的一年多時間裏,咱們開始驗證公司的商業運行模式。但很遺憾,營收狀況一直沒有大的轉機。2017 年末,公司被另外一家在線教育公司收購。此後,我便加入了 DataPipeline,由 ToC 領域轉向 ToB。

第一次創業,我印象最深入的是,團隊用了 45 天就作出了一款 App,並在 90 天內完成了天使輪融資,這種成就感和幸福感是無與倫比的。我深入體會到,不管資源有多麼匱乏,一羣有着共同願景目標的夥伴都可以克服困難,爆發出無窮的戰鬥力。但後來商業化嘗試失敗讓我認識到,市場是殘酷的,僅有技術創新不足以讓一家創業企業存活。你須要深入理解客戶羣體的核心訴求,尊重行業的自身規律,纔有可能得到商業上的成功。

由於有了第一次的經歷,我相信選擇和努力一樣重要,因而我選擇在 DataPipeline 開始了第二次創業。儘管在過去三年多裏,公司已經取得必定的成績,但整個團隊依然有很是強的生存危機感。更難能難得的是,團隊老是很是坦誠的去討論這些問題:究竟是客戶選擇有問題,仍是產品功能不夠豐富,亦或是某些方面的深度不足?團隊成員之間沒有埋怨和相互推脫,有的只是共同發現問題和解決問題,這讓我很是欣慰。

 

TGO 鯤鵬會:目前您遇到最大的挑戰是什麼?有解決辦法了嗎?

 

陳肅:在中國作 ToB 企業服務有一個共性的挑戰:服務產品化和客戶需求個性化的矛盾。

 

咱們發現,單純靠產品很難徹底知足客戶,尤爲是大客戶的所有需求。一些共性的新需求能夠放到產品迭代去解決,可是與客戶的其它系統集成和一些偏具體業務邏輯的需求,則要由現場實施團隊進行定製化開發來解決。

爲了解決這個矛盾,咱們作了如下嘗試。首先,將產品接口對外開放,以便於客戶將 DataPipeline 與自有系統進行集成,包括能夠經過已有的調度系統來控制 DataPipeline 的任務行爲;其次,咱們提供了二次開發工具,遇到暫時沒有以標準化組件提供的上下游鏈接器需求,能夠由客戶或咱們的駐場團隊快速開發;最後,咱們儘量將運維流程標準化,並開發了一套排查工具,可讓客戶快速定位問題是來自 DataPipeline,仍是定製開發部分。

這些嘗試的最終目標是,實現產品的運維自助化,儘量下降運維服務的人力和時間成本。

 

TGO 鯤鵬會:在您曾經解決過的難題中,最有成就感的是哪一次呢?

 

陳肅:相比於技術上的問題,我以爲如何協調好研發和客戶服務是一個更大的難題。

 

在 DataPipeline 成立初期,人員不多,研發、售前、運維都是由幾個開發人員扛起來的。不能否認的是,在必定時間內,這種模式體現出了它的高效性:開發人員對於業務邏輯和代碼最熟悉,他們能夠直接回答客戶的各類細節問題,必要的時候還能夠現場寫代碼解決程序 bug 和適配方面的問題。

隨着客戶數量的增加,這種粗分工模式愈來愈暴露出它的問題。第一,產品愈來愈複雜,對研發進度和質量的控制要求日趨嚴格。開發人員頻繁由於客戶支持被打斷手頭的工做,嚴重影響效率;第二,部分開發人員並不擅長和客戶溝通,容易產生誤解;第三,大部分現場問題均可以按照一個標準的流程定位和解決,從成本考慮,讓開發人員去作現場排查並不經濟。

因而,咱們開始招募售前、運維團隊,嘗試將研發人員從客戶服務中剝離。但面臨一個新的難題:如何將知識和技能有效地傳遞給售前和運維團隊。DataPipeline 的產品定位決定了咱們的售前工程師一般須要和客戶進行技術細節的交流,而運維工程師要作到快速定位問題發生的環節。

舉例來講,客戶反饋說數據同步慢,這個慢可能發生在上游讀取、Kafka 的 IO、下游寫入目的地等各個環節,又或者是集羣任務調度由於某些緣由陷入了不穩定狀態。運維工程師要有能力進行甄別,解決運維層面的問題,協同研發人員定位解決疑似代碼層面的問題。爲了讓售前和運維團隊可以相對獨立的服務客戶,咱們定了以下規矩:

一、全部售前和運維工程師進入公司後,從產品使用和技術原理方面開始集中培訓。要求售前和運維都可以回答關於產品使用層面的問題,熟悉產品核心技術點,例如高可用、數據一致性、動態擴容、性能影響因素、高級清洗的使用等等。要求售前可以在客戶現場進行 POC 部署,運維可以在研發不干預的狀況下進行產品性能調優和故障排查;

二、研發人員只有在肯定是 bug 和性能缺陷的狀況下,才能直接和客戶接觸。其他問題一概經過售前人員或運維人員進行解答。遇到未知問題,售前人員和運維人員能夠向研發需求幫助,並記錄後放到知識庫中。經過這種方式,咱們目前基本將研發人員從平常的客戶服務中解放出來,也進一步提高了客戶的服務滿意度。

相關文章
相關標籤/搜索