別人的大數據平臺是怎樣的?算法
別人的大數據平臺是怎樣的呢?若是參加過一些大大小小的技術分享論壇或會議,你應該不難發現,在各類各樣新的諸如「XXX公司大數據平臺實踐無敵乾貨分享」之類的PPT中,談到大數據平臺的技術組件時,多半都.會給出一個大同小異的系統架構圖。數據庫
在這個架構圖中,各類日誌和DB數據採集組件、存儲和計算引擎、監控和調度系統,無論在實踐中真實的應用狀況如何,反正在圖上全部組件一個都不缺,除了個別組件的增減替換,每家公司的大數據平臺看起來都沒有太大的區別。安全
因此,若是你要問大數據平臺的基礎架構圖長什麼樣,不用本身畫,直接用HortonWorks公司的HDP發行版套件圖來展現,估計也沒啥大的不妥,以下圖所示。架構
大 數據平臺團隊的職能定位運維
要談大數據平臺的服務化,要評估大數據平臺的服務水平,首先就得討論什麼是大數據平臺的職能定位和服務對象範圍。很不幸的是,這也不是一一個有標準答案的問題。ide
●在有些公司,大數據團隊只負責基礎組件的開發和運維,爲業務方提供SDK、組件套裝或集羣形式的服務。工具
●在有些公司,基礎組件之上的工具、平臺等,都由專門的工具團隊負責, 層層分工,團隊之間交叉服務。學習
●在有些公司,不一樣的事業部團隊會自行在基礎平臺組件之上,各自垂直地構建獨立的業務系統,平臺基礎組件開發者服務於上層業務系統開發人員。大數據
●在有些公司,大數據團隊從下到上全鏈路通吃,從集羣運維一直負貴到最終具體終端業務數據的產出,對終端使用數據的用戶負責。spa
在大數據平臺的全部組件中,工做流調度系統(Workflow Scheduler)無疑是最重要的核心組件之一一,是任何一個稍微有點規模且不是簡單作作的大數據開發平臺都必不可少的重要組成部分。
根據具體語境、稱呼習慣和功能指代範圍的細微不一樣,工做流調度系統也經常被叫做做業調度系統(Job Scheduler)、任務調度系統、工做流做業調度系統,或者在約定場景下乾脆被簡稱爲調度系統。下文中咱們也可能在不形成歧義的狀況下,根據須要混用這幾種稱呼。
做爲一個業務環境相對複雜的系統,工做流調度系統涉及的內容繁雜,針對的場景多種多樣,實現的方案千差萬別,是一個須要理論和實踐並重的系統。
大數據平臺的權限管理工做,聽起來不就是用戶和密碼管理這點事嗎?先找一個數據庫存儲二者的映射關係,再找- -一個地方記錄每一個人能夠作什麼事,最後在須要的時候驗證一下就行了。若是不討論各類加解密原理和算法,這個話題有什麼值得一談的嗎?
實際上,若是真正接觸過這方面的工做內容,你很快就會發現,不管是在技術層面仍是在產品層面,大數據平臺環境下的權限管理工做都是一一個讓人傷腦筋的燙手山芋。它不只是一個技術問題,仍是一一個業務問題,甚至還多是一我的際溝通和權衡利益得失的哲學問題。
幸福的家庭都是同樣的,不幸的家庭各有各的不幸。
原本想從如何成爲一一名優秀的大數據平臺開發工程師的角度入手,但仔細想了一下,從這個角度入手的話,這個話題就太簡單了!雖然我沒有被諸如Jeff Dean之類的大神附體,也很差意思自認爲有資格指點江山。可是,講道理這件事,誰不會呢?
比如,炒股票,不就是低買高拋嗎?玩互聯網,不就是拉流量變現嗎?而要想成爲一名優秀的大數據平臺開發工程師,只要作到深度與廣度並重,鑽研技術、理解產品、能搭架構、能解Bug,那就妥妥的了。
既然道理如此簡單,還須要多解釋嗎?而咱們,大概不是輕鬆地碾壓了巴菲特,就是早已經順利地在風口起飛了!
是的,優秀的人都是相似的,提及來就太過無聊了。
總之,人生就是一場解決問題的旅程,焦慮在所不免,但適度的危機感也未必是壞事。重要的是,不要讓焦慮過分影響你的判斷,儘可能讓本身具有主動選擇將來的能力。
不管各位讀者未來是否從事大數據平臺開發工做,都真心祝願各位在工做和生活中能直面問題,客觀冷靜地尋找解決方案,用正確的方法論和價值觀爲本身贏得一個充實且有價值的人生。