大數據開發步驟和流程
大數據項目開發步驟:
第一步:需求:數據的輸入和數據的產出;html
第二步:數據量、處理效率、可靠性、可維護性、簡潔性;web
第三步:數據建模;算法
第四步:架構設計:數據怎麼進來,輸出怎麼展現,最最重要的是處理流出數據的架構;架構
第五步:再次思考大數據系統和企業IT系統的交互;框架
第六步:最終肯定選擇、規範等;機器學習
第七步:基於數據建模寫基礎服務代碼;工具
第八步:正式編寫第一個模塊;oop
第九步:實現其它的模塊,並完成測試和調試等;學習
第十步:測試和驗收;測試
大數據流程:
從流程角度上看,整個大數據處理可分紅4個主要步驟。
第一步是數據的蒐集與存儲;
第二步是經過數據分析技術對數據進行探索性研究,包括無關數據的剔除,即數據清洗,與尋找數據的模式探索數據的價值所在;
第三步爲在基本數據分析的基礎上,選擇和開發數據分析算法,對數據進行建模。從數據中提取有價值的信息,這實際上是真正的阿里雲大數據的學習過程。這當中會涉及不少算法和技術,好比機器學習算法等;
最後一步是對模型的部署和應用,即把研究出來的模型應用到生產環境之中。
1) 數據採集:定製開發採集程序,或使用開源框架flume
2) 數據預處理:定製開發mapreduce程序運行於hadoop集羣
3) 數據倉庫技術:基於hadoop之上的Hive
4) 數據導出:基於hadoop的sqoop數據導入導出工具
5) 數據可視化:定製開發web程序或使用kettle等產品