大數據之爬蟲

 

本文爲《搞定大數據爬蟲項目》學習,想通系統學習機器這個最火爆內容的同窗,推薦學習課程:http://www.dajiangtai.com/course/7.do?sp=www_117

 

課程大綱數據庫

項目背景
一、瞭解傳統廣電收視率項目背景 
二、用戶數據有哪些價值點 
三、哪些機構掌握這些數據 
四、爬蟲目標:互聯網各大視頻網站 
項目整體需求
一、多維度統計:總播放指數、每日播放增量、評論數、收藏數、贊、踩 
二、數據可視化:節目收視排行榜、多維度指標趨勢圖 
難點分析
一、網站採起反爬策略 
二、網站模板按期變更 
三、網站URL抓取失敗 
四、網站頻繁抓取IP被封 
系統架構設計
一、整體架構解析 
二、數據流向 
三、功能模塊劃分 
四、各個模塊詳細解讀 
技術選型
一、數據採集層 
二、數據存儲層 
三、數據處理層 
四、數據展現層 
部署方案
一、爬蟲項目:分佈式集羣 
二、爬蟲定時項目:一臺服務器 
三、爬蟲項目監控:一臺服務器 
四、爬蟲可視化:多臺服務器 
五、Hbase數據庫:分佈式集羣 
六、Redis數據庫:分佈式集羣 
七、Solr 全文檢索:分佈式集羣 
八、Zookeeper 監控:分佈式集羣 
九、Solr 創建索引:一臺服務器 
十、郵件提醒:一臺服務器 
爬蟲代碼詳盡實現
一、下載、解析視頻網站詳情頁面url,提取關鍵字段數據 
二、抽取視頻網站解析規則模板,優化解析代碼 
三、打通數據爬蟲的下載、解析、存儲流程 
四、採用Hbase存儲爬蟲數據,詳解Hbase寬表和窄表設計以及爬蟲項目表的詳細設計,包含rowKey設計、列簇設計、歷史版本 
五、解析視頻網站全部分頁url並優化解析實現類 
六、使用Queue隊列存儲視頻網站全部url,實現視頻網站url循環抓取 
七、採用高、低優先級隊列循環抓取視頻網站url 
八、採用Redis數據庫實現url抓取優先級,並支持分佈式爬蟲 
九、採用多線程爬蟲,加快爬蟲效率 
十、定時啓動爬蟲項目 
十一、完善爬蟲項目、補充抓取關鍵字段數據 
全文檢索
一、Lucene、Solr、ElasticSearch簡介 
二、全文檢索過程:索引建立和搜索索引 
三、解決全文檢索的核心問題 
四、Solr+Hbase組合提高檢索效率 
五、Solr 配置詳解 
六、Solr 安裝部署 
七、Solr 創建索引 
八、Solr 檢索視頻網站數據 
數據可視化
一、採用SpringMVC框架編寫爬蟲Web項目 
二、編寫Hbase工具類查詢Hbase數據 
三、編寫Solr工具類檢索爬蟲數據 
四、採用Freemarker或者jsp展現頁面 
五、採用Highcharts插件展現收視指數曲線圖 
六、打通爬蟲整個項目流程,實時查看收視排行榜以及收視指數曲線圖 
項目優化一
一、設置合理的抓取時間間隔,模擬正經常使用戶訪問,下降IP被封機率 
二、採用Redis 動態IP庫,隨機獲取IP,隨機抓取不一樣網站數據,下降同一IP對統一網站的訪問頻率 
三、實現分佈式爬蟲,提升爬蟲效率 
項目優化二
一、Ganglia、Zookeeper簡介 
二、詳解Zookeeper特性監控爬蟲項目 
三、完善爬蟲項目註冊Zookeeper集羣 
四、編寫Watcher監視器監控爬蟲項目生命週期 
五、集羣監控的總體聯調 
項目優化三
一、監控器監控爬蟲項目異常,異常數據插入數據庫二、編寫郵件Mail項目掃描爬蟲項目異常信息,通知運維人員三、編寫定時器定時執行Mail項目 
相關文章
相關標籤/搜索