課程大綱數據庫
一、瞭解傳統廣電收視率項目背景 二、用戶數據有哪些價值點 三、哪些機構掌握這些數據 四、爬蟲目標:互聯網各大視頻網站 |
一、多維度統計:總播放指數、每日播放增量、評論數、收藏數、贊、踩 二、數據可視化:節目收視排行榜、多維度指標趨勢圖 |
一、網站採起反爬策略 二、網站模板按期變更 三、網站URL抓取失敗 四、網站頻繁抓取IP被封 |
一、整體架構解析 二、數據流向 三、功能模塊劃分 四、各個模塊詳細解讀 |
一、數據採集層 二、數據存儲層 三、數據處理層 四、數據展現層 |
一、爬蟲項目:分佈式集羣 二、爬蟲定時項目:一臺服務器 三、爬蟲項目監控:一臺服務器 四、爬蟲可視化:多臺服務器 五、Hbase數據庫:分佈式集羣 六、Redis數據庫:分佈式集羣 七、Solr 全文檢索:分佈式集羣 八、Zookeeper 監控:分佈式集羣 九、Solr 創建索引:一臺服務器 十、郵件提醒:一臺服務器 |
一、下載、解析視頻網站詳情頁面url,提取關鍵字段數據 二、抽取視頻網站解析規則模板,優化解析代碼 三、打通數據爬蟲的下載、解析、存儲流程 四、採用Hbase存儲爬蟲數據,詳解Hbase寬表和窄表設計以及爬蟲項目表的詳細設計,包含rowKey設計、列簇設計、歷史版本 五、解析視頻網站全部分頁url並優化解析實現類 六、使用Queue隊列存儲視頻網站全部url,實現視頻網站url循環抓取 七、採用高、低優先級隊列循環抓取視頻網站url 八、採用Redis數據庫實現url抓取優先級,並支持分佈式爬蟲 九、採用多線程爬蟲,加快爬蟲效率 十、定時啓動爬蟲項目 十一、完善爬蟲項目、補充抓取關鍵字段數據 |
一、Lucene、Solr、ElasticSearch簡介 二、全文檢索過程:索引建立和搜索索引 三、解決全文檢索的核心問題 四、Solr+Hbase組合提高檢索效率 五、Solr 配置詳解 六、Solr 安裝部署 七、Solr 創建索引 八、Solr 檢索視頻網站數據 |
一、採用SpringMVC框架編寫爬蟲Web項目 二、編寫Hbase工具類查詢Hbase數據 三、編寫Solr工具類檢索爬蟲數據 四、採用Freemarker或者jsp展現頁面 五、採用Highcharts插件展現收視指數曲線圖 六、打通爬蟲整個項目流程,實時查看收視排行榜以及收視指數曲線圖 |
一、設置合理的抓取時間間隔,模擬正經常使用戶訪問,下降IP被封機率 二、採用Redis 動態IP庫,隨機獲取IP,隨機抓取不一樣網站數據,下降同一IP對統一網站的訪問頻率 三、實現分佈式爬蟲,提升爬蟲效率 |
一、Ganglia、Zookeeper簡介 二、詳解Zookeeper特性監控爬蟲項目 三、完善爬蟲項目註冊Zookeeper集羣 四、編寫Watcher監視器監控爬蟲項目生命週期 五、集羣監控的總體聯調 |
一、監控器監控爬蟲項目異常,異常數據插入數據庫二、編寫郵件Mail項目掃描爬蟲項目異常信息,通知運維人員三、編寫定時器定時執行Mail項目 |