前言:
-更多關於數智化轉型、數據中臺內容請加入阿里雲數據中臺交流羣—數智俱樂部 (文末掃描二維碼或點此加入)html
(做者:數據從業者 )算法
我是阿里數據部門的一名數據技術專家,如今主要在對外部客戶的一些數據中臺項目中,作技術以及產品的支持。
我原來在阿里內部其實作了5年的數據開發,如今在作一些外部項目的時候,常常會和一些生態合做夥伴公司一塊兒去交付項目,在這些合做夥伴的數據開發中,不論是新人仍是老人,都能看到我曾經的一些影子,因此我想借助這篇文章,講述一下我在阿里當數據開發的一些經歷 ,但願在我的發展上對他們有一點幫助。後端
我是13年加入阿里的,在進阿里前,原來是作銀行的數據倉庫建設,用的是TERADATA的LSDM那套3NF建模的方法,技術也主要圍繞TERADATA和後來的GREENPLUM爲主,因此進到阿里後,會有一個在業務和技術上適應的過程。
首先是技術上,我進到阿里後,那時候阿里正處於底層的數據處理平臺更換的階段,從GREENPLUM替換到HADOOP平臺,所以我進入部門後,首先對HADOOP大數據平臺並非很熟悉,由於那時候銀行裏面都尚未開始用HADOOP平臺,因此一開始對HADOOP這套計算架構就很是的不適應,好比爲何跑個SQL這麼慢,執行個SQL還要打開網頁運行(由於咱們原來用的是在雲端),這是一個慢慢熟悉和適應的過程。架構
另一方面是業務方面的適應,須要從原來熟悉的銀行業務,過分到互聯網業務。業務變了,對應的數據也都發生了很大的變化,我到了ICBU後,被分配到負責流量和廣告相關的業務,會接觸到大量的日誌數據,好比頁面瀏覽,點擊,曝光,還有P4P點擊廣告相關的日誌,面對這麼多非結構化的日誌數據,我一開始都不清楚爲何須要這些日誌的數據, 可是經過後面不斷對互聯網業務的熟悉,才知道流量分析對網站的重要性,這個階段我也熟悉了不少流量相關的業務知識,好比SEM,PPC,SEO,聯盟等等。工具
這個階段除了提升新的技術和業務能力外,主要的工做就是不斷的接需求作報表。團隊裏面有專門的數據PD,他們的職責就是"接活",天天接業務方的需求,而後經過需求溝通和分析,每月排定咱們數據開發的資源,因此時間長了之後你就會以爲你就僅僅是一個資源,我的價值沒法獲得體現。學習
因此後來咱們進行了改革,就是讓數據開發本身到前面,接業務的需求,而後本身溝通和分析,數據PD就都去作PD應該作的數據產品設計。說實話,這是一個很好的讓開發成長的措施,由於作數據的,要想真正瞭解數據,你首先要了解對應的業務,否則你開發出來的數據,就只是那幾張硬生生的報表。也正由於這個階段,我學會了一些如何和業務「談」需求的方法,好比WBRD,問需求方十個問題,像需求基於什麼樣的業務背景,業務的痛點是什麼,指標中的模糊詞彙如何定義,等等,將這些都問題清楚,你才能知道你爲了什麼而開發這個需求,並且你才能知道哪些需求該重點優先去排本身的時間作,這就是去作正確的事情。大數據
另外這階段也學到了一些數據分析的方法,由於我作出來的報表須要直接面向個人最終用戶的,原來是開發好後,就丟給數據PD,因此如今業務方會直接來找我說,某某,你這個數據不對啊,這個時候,我才知道業務原來是這樣分析數據的,由於我所在的是流量線,我也知道了原來流量是如何作相應的數據監控,才能及時的發現問題,排查問題,定位緣由以及解決和預防問題。優化
因此,這是一個「往前邁一步」的階段,這個階段讓我學會了需求分析和數據分析的一些方法,讓我以爲我的的價值仍是有必定的體現的,有時候被業務方點贊和承認,本身內心仍是很暗爽的~~~網站
後來,阿里進行了登月項目,這個你們不少人都知道,就是將阿里全部部門的數據平臺都遷移到ODPS,而後統一使用ONEDATA建模方法論去進行建模工做。可是我後面的工做重心並非在ONEDATA建模上,而是在ODPS資源優化上。由於自從登月之後,ODPS的計算和存儲是使用量不斷提升,出於降本增效的目的,當時的CTO就成立了專門的數據管理委員會,而且基於統一的數據資產管理平臺,進行全集團的數據治理。參加過咱們培訓的人應該知道,主要的治理也是包括計算和存儲兩方面,對應的有計算健康分和存儲健康分,若是達不到必定分數的人到時候就不能使用ODPS,因此那時候,我接到的副業就是,作爲接口人,幫助整個B2B的同窗一塊兒進行優化。ui
因此,這一階段,個人工做就是組織全BU的人,學習ODPS的優化方法,包括一些後端和算法部門會使用到ODPS的同窗,將一個個有問題,好比消耗資源TOP的幾個SQL,抓出來教他們進行優化,可是你要教他們首先你得會一套有體系的優化方法,這個首先還得依賴咱們阿里強大的產品能力,一些優化的方法論其實都體如今產品上,經過對數據管理平臺中優化方法的學習和沉澱,那段時間我幾乎天天都在和這些問題SQL打交道。並且後來我還接了整個數據開發部門慢報表的治理的工做,就是看部門哪一個報表慢,哪一個報表30天沒人訪問了,該下的下,該優化的優化。因此也正由於這個階段的刻意訓練吧,我熟悉了ODPS的底層的一些原理,以及處理MYSQL,ADB一些慢SQL的方法,以及針對不一樣的分析場景須要採用什麼樣的數據存儲,是MYSQL仍是ADB。
因此,假如你是一名合格的數據開發人員,你開發出來的報表查詢時間不能低於3秒,開發的ODPS任務不能出現像數據傾斜,或者分區裁剪失效等問題,並且你要知道具體優化的方法。
接着後來作完這些工做後,我又往前走了一步,就是和團隊的產品PD,一塊兒搞了一些數據產品,好比一些應用計算的組件平臺,還有核心指標庫,以及一些業務的數據門戶。由於你作到後來你會發現,正在能帶來價值的仍是產品,並且一方面你能夠將你的一些方法論沉澱在產品上。這個階段也從產品PD那裏學了一些產品設計的方法,至少用AXURE畫個產品的DEMO應該沒問題吧。
另外這個階段我也懂得了一個方法,就是你要學習一個技術,或者一個事情吧,你能夠先從它對應的產品學起,由於產品每每是業界對應的方法論的沉澱,你能夠經過產品,很快地掌握這件事情的方法,就好比咱們的DATAPHIN產品,若是你要學習數據中臺相應的方法論,你能夠經過DATAPHIN產品學,包括數據建模,數據資產,數據質量等等方法論,都會在產品中體現。
至於後來爲何我開始支持對外的項目,是由於我看到了更多的社會價值,經過阿里雲,咱們輸出原來阿里沉澱的一些數據中臺建設的方法論,能夠幫助外部的企業進行數字化轉型,我以爲我更傾向於選擇支持外部。
寫在最後,我以爲你們都是在將本身的能力最大化,價值最大化的過程當中前進,因此有時候「往前邁一步」,可能會有更好的風景。
數據中臺是企業數智化的新基建,阿里巴巴認爲數據中臺是集方法論、工具、組織於一體的,「快」、「準」、「全」、「統」、「通」的智能大數據體系。目前正經過阿里雲數據中臺解決方案對外輸出,包括零售、金融、互聯網、政務等領域,其中核心產品有:
官方站點:
數據中臺官網 https://dp.alibaba.com