數據分析流程

一.肯定分析目的和內容:
        1.引導數據收集方向
        2.指導數據分析目標
        
    瞭解業務,瞭解需求
    
二.收集數據:
        1.讀取公司內部的數據(公司業務積累數據,日誌,)
        2.數據抓取(抓取網絡上的相關數據,補充數據源)
        3.購買其它平臺的業務數據
        
    數據庫:mysql(結構化),hive(倉庫) ,oracle
    hbase,mongodb,redis,memcachedb
    Bigtable:一個結構化數據的分佈式存儲系統  google
    DynamoDB是亞馬遜的key-value模式的存儲平臺    
    nosql數據庫介紹:http://www.pc6.com/infoview/Article_67065.html
    
    數據抓取:python,jsoup,httpclient,htmlunit,fiddler4(分析工具),nutch
    使用圖文教程:http://blog.csdn.net/chaoyu168/article/details/51065644
    
    數據抽取:flume,Kafka
    Flume:Flume 是管道流方式,提供了不少的默認實現,讓用戶經過參數部署,及擴展API.
    Flume安裝介紹:http://blog.csdn.net/u012135300/article/details/51320343
    Kafka:Kafka是一個可持久化的分佈式的消息隊列。
    Kafka安裝介紹:http://www.cnblogs.com/darkprince/p/5114425.html
    
三.處理數據:
        1.清洗:處理垃圾數據和錯誤,清洗出業務需求數據
        2.轉化:整理出有規則的數據格式(能夠是文本,json,表格等)
        3.提取:編寫清洗模板,便於拓展和調整
        4.計算:根據預約的字段,計算出相應的值
        
        ETL: kettle
    kettle安裝使用介紹:http://www.cnblogs.com/zhangchenliang/p/4179775.html
    ETL數據清洗工具:http://blog.csdn.net/xiaoshunzi111/article/details/51881740  (沒多大用)
    
四.分析數據:
        1.加工、整理和分析、使其轉化爲信息
        
        數據建模:關係模型,多維模型   http://www.2cto.com/database/201401/272744.html
        數據庫建模工具:http://www.cnblogs.com/liangxiaofeng/p/5798590.html
        mahout,spark mllib,
        18算法介紹:https://my.oschina.net/u/2510243/blog/808270html

五.展示數據:
        1.各類圖形結果和表格展現
        
        數據可視化工具:http://www.360doc.com/content/16/0606/00/888124_565383093.shtml
        
六.撰寫報告:
        1.對數據分析過程的總結和呈現,把分析原由,過程,結果及建議呈現出來,以供決策
        python

相關文章
相關標籤/搜索