「你是作什麼的?」數據庫
「數據產品經理」看到對方一臉懵逼以後,再補充一句「大數據相關的工做」工具
「哦~,高大上,不懂」性能
過去5年,「大數據」是最火的一個概念,被紛繁解讀。在我看來,數據跟石油、煤炭同樣是一種資源。這種資源其實很早以前就被發現、被應用。只不過由於互聯網的發展,數據這種資源呈現出了「爆炸式」的增加,而人們也發現了它巨大的潛在價值;預計到2020年,全球數據總量將超過40ZB(至關於40萬億GB)。大數據
因此面對如此「量大」、「價值大」的資源,咱們須要創建一套從數據採集、計算到服務到應用的「大數據體系」,就跟「石油體系’同樣有勘探、採集、傳輸、加工、應用等;由此也萌生出一批「大數據體系」相關的工種。spa
阿里巴巴做爲距離大數據最近的公司之一,既有豐富的數據資源也有豐富的應用場景,從它建構的大數據體系瞭解「大數據」這條生態鏈的全貌,我認爲是比較科學的。設計
「阿里巴巴大數據系統體系」設計原則:知足不斷變化的業務需求,同時實現系統的高度擴展性、靈活性以及數據展示的高性能。日誌
「阿里巴巴大數據系統體系」主要分爲數據採集、數據計算、數據服務和數據應用四大層次;blog
數據採集接口
Web端日誌採集技術方案:Aplus.JS資源
APP端日誌採集技術方案:UserTrack
生產業務—>大數據系統傳輸:
TimeTunnel(TT),既包括數據庫的增量數據傳輸,也包括日誌數據的傳輸;既支持實時流式計算,也支持各類時間窗口的批量計算;
數據同步工具(DataX和同步中心)直連異構數據庫來抽取各類時間窗口的數據;
數據計算
MaxCompute-離線計算平臺:阿里自研的離線大數據平臺,擁有強大的存儲和計算能力;
StreamCompute-實時計算平臺:阿里自研的流式大數據平臺,支持流式計算需求;
OneData-數據整合及管理體系:數據整合及管理的方法體系和工具,大數據工程師在這一體系下,構建統1、規範、可共享的全域數據體系,避免數據的冗餘和重複建設,規避數據煙囪和不一致性。
數據服務
OneService-統一的數據服務平臺:以數據倉庫整合計算好的數據做爲數據源,對外經過接口的方式提供數據服務,主要提供簡單數據查詢服務、複雜數據查詢服務和實時數據推送服務三大特點數據服務
數據應用
數據做爲新能源,須要經過合適的應用提供給用戶,讓數據最大化地發揮價值。應用表現能夠在搜索、推薦、廣告、金融、物流等各個方面。
轉載:數據產品筆記本