一.肯定分析目的和內容:
1.引導數據收集方向
2.指導數據分析目標
瞭解業務,瞭解需求
二.收集數據:
1.讀取公司內部的數據(公司業務積累數據,日誌,)
2.數據抓取(抓取網絡上的相關數據,補充數據源)
3.購買其它平臺的業務數據
數據庫:mysql(結構化),hive(倉庫) ,oracle
hbase,mongodb,redis,memcachedb
Bigtable:一個結構化數據的分佈式存儲系統 google
DynamoDB是亞馬遜的key-value模式的存儲平臺
nosql數據庫介紹:http://www.pc6.com/infoview/Article_67065.html
數據抓取:python,jsoup,httpclient,htmlunit,fiddler4(分析工具),nutch
使用圖文教程:http://blog.csdn.net/chaoyu168/article/details/51065644
數據抽取:flume,Kafka
Flume:Flume 是管道流方式,提供了不少的默認實現,讓用戶經過參數部署,及擴展API.
Flume安裝介紹:http://blog.csdn.net/u012135300/article/details/51320343
Kafka:Kafka是一個可持久化的分佈式的消息隊列。
Kafka安裝介紹:http://www.cnblogs.com/darkprince/p/5114425.html
三.處理數據:
1.清洗:處理垃圾數據和錯誤,清洗出業務需求數據
2.轉化:整理出有規則的數據格式(能夠是文本,json,表格等)
3.提取:編寫清洗模板,便於拓展和調整
4.計算:根據預約的字段,計算出相應的值
ETL: kettle
kettle安裝使用介紹:http://www.cnblogs.com/zhangchenliang/p/4179775.html
ETL數據清洗工具:http://blog.csdn.net/xiaoshunzi111/article/details/51881740 (沒多大用)
四.分析數據:
1.加工、整理和分析、使其轉化爲信息
數據建模:關係模型,多維模型 http://www.2cto.com/database/201401/272744.html
數據庫建模工具:http://www.cnblogs.com/liangxiaofeng/p/5798590.html
mahout,spark mllib,
18算法介紹:https://my.oschina.net/u/2510243/blog/808270html
五.展示數據:
1.各類圖形結果和表格展現
數據可視化工具:http://www.360doc.com/content/16/0606/00/888124_565383093.shtml
六.撰寫報告:
1.對數據分析過程的總結和呈現,把分析原由,過程,結果及建議呈現出來,以供決策
python