大數據技術筆記之數據採集和預處理

1.大數據採集 大數據採集包含:系統日誌採集方法、網絡數據採集方法(通過網絡爬蟲實現)、其他數據採集(通過特定的接口) 1.1 系統日誌採集方法 Flume: 分佈式日誌收集系統,最初由Cloudera 開發,現是Apache的一個開源項目 Chukwa:開源分佈式數據收集系統,是Hadoop 的組成部分,構建在 hdfs 和 map/reduce 框架之上 Scrible:Scribe是face
相關文章
相關標籤/搜索