大數據開發步驟和流程

 

大數據開發步驟和流程

大數據項目開發步驟:

第一步:需求:數據的輸入和數據的產出;html

第二步:數據量、處理效率、可靠性、可維護性、簡潔性;web

第三步:數據建模;算法

第四步:架構設計:數據怎麼進來,輸出怎麼展現,最最重要的是處理流出數據的架構;架構

第五步:再次思考大數據系統和企業IT系統的交互;框架

第六步:最終肯定選擇、規範等;機器學習

第七步:基於數據建模寫基礎服務代碼;工具

第八步:正式編寫第一個模塊;oop

第九步:實現其它的模塊,並完成測試和調試等;學習

第十步:測試和驗收;測試


大數據流程:

從流程角度上看,整個大數據處理可分紅4個主要步驟。

         第一步是數據的蒐集與存儲;

         第二步是經過數據分析技術對數據進行探索性研究,包括無關數據的剔除,即數據清洗,與尋找數據的模式探索數據的價值所在;

         第三步爲在基本數據分析的基礎上,選擇和開發數據分析算法,對數據進行建模。從數據中提取有價值的信息,這實際上是真正的阿里雲大數據的學習過程。這當中會涉及不少算法和技術,好比機器學習算法等;

         最後一步是對模型的部署和應用,即把研究出來的模型應用到生產環境之中。

                   1) 數據採集:定製開發採集程序,或使用開源框架flume

                  2) 數據預處理:定製開發mapreduce程序運行於hadoop集羣

                  3) 數據倉庫技術:基於hadoop之上的Hive

                  4) 數據導出:基於hadoop的sqoop數據導入導出工具

                  5) 數據可視化:定製開發web程序或使用kettle等產品

相關文章
相關標籤/搜索