大數據的應用開發過於偏向底層,具備學習難度大,涉及技術面廣的問題,這制約了大數據的普及。如今須要一種技術,把大數據開發中一些通用的,重複使用的基礎代碼、算法封裝爲類庫,下降大數據的學習門檻,下降開發難度,提升大數據項目的開發效率。算法
大數據在工做中的應用有三種:與業務相關,好比用戶畫像、風險控制等;安全
與決策相關,數據科學的領域,瞭解統計學、算法,這是數據科學家的範疇;與工程相關,如何實施、如何實現、解決什麼業務問題,這是數據工程師的工做。框架
第一類:歷來源來看分爲內部數據和外部數據;數據源的特色決定數據採集與數據存儲的技術選型,我根據數據源的特色將其分爲四大類:運維
第二類:從結構來看分爲非結構化數據和結構化數據;分佈式
第三類:從可變性來看分爲不可變可添加數據和可修改刪除數據;性能
第四類,從規模來看分爲大量數據和小量數據學習
大數據平臺第一個要素就是數據源,咱們要處理的數據源每每是在業務系統上,數據分析的時候可能不會直接對業務的數據源進行處理,而是先通過數據採集、數據存儲,以後纔是數據分析和數據處理。大數據
從整個大的生態圈能夠看出,要完成數據工程須要大量的資源;數據量很大須要集羣;要控制和協調這些資源須要監控和協調分派;面對大規模的數據怎樣部署更方便更容易;還牽扯到日誌、安全、還可能要和雲端結合起來,這些都是大數據圈的邊緣,一樣都很重要。優化
大快大數據平臺(DKH),是大快公司爲了打通大數據生態系統與傳統非大數據公司之間的通道而設計的一站式搜索引擎級,大數據通用計算平臺。傳統公司經過使用DKH,能夠輕鬆的跨越大數據的技術鴻溝,實現搜索引擎級的大數據平臺性能。搜索引擎
DKH標準平臺技術構架圖