其實這個DEMO並不會有什麼新的東西,只是把各個環節步驟平臺工具過程和結果串連展現出來,而尋找發現目前急需解決的真正關鍵問題纔是重要的,html
舉例:孫先生和周先生棄醫從文拯救國人,真是由於他看清國人的病不在肉身而在思想,那大數據的問題在哪,答認識python
認識理解與協做算法
介於大數據目前的現狀,不一樣人角色的認識及市面概念的混亂,數據技術棧之多,數據處理環節,處理過程之複雜,各類輔助工具,中間件如雨後春筍,反而給這個跨學科,跨業務,產品,跨部門做爲硬需求的這項技術自己增長了一些阻礙,想要給團隊全部相關部門角色說清楚,統一認識或口徑,這對交流協做和處理效率和引發沒必要要的返工甚至項目夭折,這件事自己很是困難,因此咱們推出一個樣例,來把整個過程展現出來,避免你們都說的是中國話,卻聽不懂,或是盲人摸象,管中窺豹,李逵李鬼分不清,甚至混淆是非的事情發生 。數據庫
信息孤島,數據孤島,技術孤島,項目孤島的悲劇 apache
縱觀互聯網,雲計算,大數據的掘起,解決的無非是信息不對稱,數據孤立等致使的生產和效率低下的問題,因此信息傳播,數據分享,共享經濟也所以而掘起架構
而大數據並非什麼新或什麼高深的技術,也逐漸從學術專家科研領域轉到了工業生產生活中...運維
然而市場的吹捧神話,僞專家的鼓吹剛會講不會作,技術門檻,人才缺口,公司的投入等緣由影響,在實施過程當中一樣會走回孤島深坑,機器學習
如認知不統一,關係數據庫或單機版R、python來作大數據分析,或把數據計算引擎當數據庫引擎作有狀態數據事務性統計,工具
或請了一堆大牛用了不少牛B先進的技術而後作了一套專家系統,或是作了一人工智能產品卻發現沒有市場需求,oop
亦或是公司爲上市拉風投糊亂造點假數據自欺欺人,也有公司興高采烈接入大數據,而後又一本正經的放棄了
人難找,技術難學,項目難推動
說了些大的業界亂象和一些大坑,其實真實細節的問題更多,人力不知該找啥樣的人,技術新手不知從哪開始入手,產品作不出原型設計,運維不知怎樣介入,數據工程,數據分析,數據算法,市場運營決策等需求方不知怎麼協調,其實相似事情之前提到車品覺前輩的書裏有相似情景,需求方不知道有什麼數據能作什麼可不可信,分析師不知數據怎麼來的數據源是否可靠,需求方真正想看什麼,數據處理工程師不知上層要作什麼處處怎樣給數據,給哪些數據等等,還提一個「斷層」的理念,其實都說的是一件事,角色不一樣,關心角度不一樣,我的的經驗積累不一樣,認知高度不一樣,形成最終認識不統一,那真正的問題找到了怎麼解就比較容易 了,無論你是頭疼醫腳水來土淹,仍是科學化療,仍是選擇中醫根治,均可以,這也是爲何在這扯這麼 一大篇,作這麼一個過程演示緣由和意義
落地與實施
最後說說但願與現實的差距,指望與實際老是不匹配,雖不是神話,那距科幻還有多遠
做爲一門樸實無華的技術,他到底爲誰解決了什麼問題,過程是怎樣的,結果是怎樣的,怎麼解決的,善於解決哪些問題,還有哪些未解決,業界有哪些優化方案,一樣哪些還待優化或迂迴或避免
1.若是 你對 數據處理流程 徹底不瞭解,請參考 數據支撐 使用EXCEL powerBi來了解整個處理分析建模展現的過程
2.若是你對 大數據 不是很瞭解,請參考 架構 相關欄目,或hadoop,spark離線 實時處理引擎相關內容
3.若是你對 數倉 不是很瞭解,請參閱 數倉 相關欄目 或其它資料
4.若是你想了解 數據處理詳細細節,請參閱 數據接入和 數據處理欄目下的全部相關組件 的使用和官方文檔
5.若是你是運維,對數據平臺管理監控感興趣,能夠了解 數據平臺規劃準備 和 集羣管理 章節內容
6.若是 你想查看倉庫和管理元數據,請 參閱 dw 欄目和HUE相關文檔及使用
7.若是你要作OLAP自助分析和BI報表,請 參閱 olap 和 BI相關欄目和測試例子
8.若是 你想了解機器學習相關處理和建模過程或是作一個DDS數據決策系統,或 你是算法或分析師,想在大數據平臺上作 ad-hoc即席查詢與探索分析必定喜歡和離不開 zeppelin 或 spark-notebook