數據分析流程

時間 2019-11-20

標籤數據分析流程简体版

原文原文鏈接

一.肯定分析目的和內容：
1.引導數據收集方向
       2.指導數據分析目標

瞭解業務，瞭解需求

二.收集數據：
1.讀取公司內部的數據（公司業務積累數據，日誌，）
       2.數據抓取（抓取網絡上的相關數據，補充數據源）
       3.購買其它平臺的業務數據

   數據庫：mysql（結構化）,hive（倉庫），oracle
   hbase,mongodb,redis，memcachedb
   Bigtable：一個結構化數據的分佈式存儲系統 google
DynamoDB是亞馬遜的key-value模式的存儲平臺
   nosql數據庫介紹：http://www.pc6.com/infoview/Article_67065.html

   數據抓取：python，jsoup，httpclient，htmlunit,fiddler4(分析工具)，nutch
使用圖文教程：http://blog.csdn.net/chaoyu168/article/details/51065644

   數據抽取：flume，Kafka
   Flume：Flume 是管道流方式，提供了不少的默認實現，讓用戶經過參數部署，及擴展API.
Flume安裝介紹：http://blog.csdn.net/u012135300/article/details/51320343
   Kafka：Kafka是一個可持久化的分佈式的消息隊列。
   Kafka安裝介紹：http://www.cnblogs.com/darkprince/p/5114425.html

三.處理數據:
1.清洗：處理垃圾數據和錯誤，清洗出業務需求數據
       2.轉化：整理出有規則的數據格式（能夠是文本，json，表格等）
       3.提取：編寫清洗模板，便於拓展和調整
       4.計算：根據預約的字段，計算出相應的值

       ETL： kettle
   kettle安裝使用介紹：http://www.cnblogs.com/zhangchenliang/p/4179775.html
   ETL數據清洗工具：http://blog.csdn.net/xiaoshunzi111/article/details/51881740 （沒多大用）

四.分析數據:
1.加工、整理和分析、使其轉化爲信息

       數據建模：關係模型，多維模型 http://www.2cto.com/database/201401/272744.html
       數據庫建模工具:http://www.cnblogs.com/liangxiaofeng/p/5798590.html
       mahout，spark mllib,
       18算法介紹：https://my.oschina.net/u/2510243/blog/808270html

五.展示數據:
1.各類圖形結果和表格展現

       數據可視化工具：http://www.360doc.com/content/16/0606/00/888124_565383093.shtml

六.撰寫報告:
1.對數據分析過程的總結和呈現，把分析原由，過程，結果及建議呈現出來，以供決策
       python

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。