大數據之爬蟲

時間 2019-11-09

標籤數據爬蟲欄目網絡爬蟲简体版

原文原文鏈接

本文爲《搞定大數據爬蟲項目》學習，想通系統學習機器這個最火爆內容的同窗，推薦學習課程：http://www.dajiangtai.com/course/7.do?sp=www_117

課程大綱數據庫

項目背景

一、瞭解傳統廣電收視率項目背景
二、用戶數據有哪些價值點
三、哪些機構掌握這些數據
四、爬蟲目標：互聯網各大視頻網站

項目整體需求

一、多維度統計：總播放指數、每日播放增量、評論數、收藏數、贊、踩
二、數據可視化：節目收視排行榜、多維度指標趨勢圖

難點分析

一、網站採起反爬策略
二、網站模板按期變更
三、網站URL抓取失敗
四、網站頻繁抓取IP被封

系統架構設計

一、整體架構解析
二、數據流向
三、功能模塊劃分
四、各個模塊詳細解讀

技術選型

一、數據採集層
二、數據存儲層
三、數據處理層
四、數據展現層

部署方案

一、爬蟲項目：分佈式集羣
二、爬蟲定時項目：一臺服務器
三、爬蟲項目監控：一臺服務器
四、爬蟲可視化：多臺服務器
五、Hbase數據庫：分佈式集羣
六、Redis數據庫：分佈式集羣
七、Solr 全文檢索：分佈式集羣
八、Zookeeper 監控：分佈式集羣
九、Solr 創建索引：一臺服務器
十、郵件提醒：一臺服務器

爬蟲代碼詳盡實現

一、下載、解析視頻網站詳情頁面url，提取關鍵字段數據
二、抽取視頻網站解析規則模板，優化解析代碼
三、打通數據爬蟲的下載、解析、存儲流程
四、採用Hbase存儲爬蟲數據，詳解Hbase寬表和窄表設計以及爬蟲項目表的詳細設計，包含rowKey設計、列簇設計、歷史版本
五、解析視頻網站全部分頁url並優化解析實現類
六、使用Queue隊列存儲視頻網站全部url，實現視頻網站url循環抓取
七、採用高、低優先級隊列循環抓取視頻網站url
八、採用Redis數據庫實現url抓取優先級，並支持分佈式爬蟲
九、採用多線程爬蟲，加快爬蟲效率
十、定時啓動爬蟲項目
十一、完善爬蟲項目、補充抓取關鍵字段數據

全文檢索

一、Lucene、Solr、ElasticSearch簡介
二、全文檢索過程：索引建立和搜索索引
三、解決全文檢索的核心問題
四、Solr+Hbase組合提高檢索效率
五、Solr 配置詳解
六、Solr 安裝部署
七、Solr 創建索引
八、Solr 檢索視頻網站數據

數據可視化

一、採用SpringMVC框架編寫爬蟲Web項目
二、編寫Hbase工具類查詢Hbase數據
三、編寫Solr工具類檢索爬蟲數據
四、採用Freemarker或者jsp展現頁面
五、採用Highcharts插件展現收視指數曲線圖
六、打通爬蟲整個項目流程，實時查看收視排行榜以及收視指數曲線圖

項目優化一

一、設置合理的抓取時間間隔，模擬正經常使用戶訪問，下降IP被封機率
二、採用Redis 動態IP庫，隨機獲取IP，隨機抓取不一樣網站數據，下降同一IP對統一網站的訪問頻率
三、實現分佈式爬蟲，提升爬蟲效率

項目優化二

一、Ganglia、Zookeeper簡介
二、詳解Zookeeper特性監控爬蟲項目
三、完善爬蟲項目註冊Zookeeper集羣
四、編寫Watcher監視器監控爬蟲項目生命週期
五、集羣監控的總體聯調

項目優化三

一、監控器監控爬蟲項目異常，異常數據插入數據庫二、編寫郵件Mail項目掃描爬蟲項目異常信息，通知運維人員三、編寫定時器定時執行Mail項目