爬蟲技術學習大綱

第一課 爬蟲的基礎技術:靜態網頁爬取

  1. HTML正則表達式

  2. HTTP 協議數據庫

  3. 爬蟲相關的 JavaScript 編程

  4. Python 網絡請求服務器

  5. 第一個爬蟲:螞蜂窩的遊記微信

第二課 網站評估、正則表達式、網頁標籤的使用、驗證碼的處理

  1. 網站規模評估網絡

  2. 網站結構分析多線程

  3. 正則表達式架構

  4. 網頁標籤的使用框架

  5. lxml 及 XPathless

  6. 圖片識別的基本原理

  7. 基於 TesseractOcr 的數字識別

  8. 其它驗證碼識別方法

第三課 多線程與分佈式爬蟲的實現

  1. 線程與進程

  2. Python 的多線程限制

  3. 從多線程爬蟲到多進程爬蟲

  4. Socket 編程

  5. Master 設計

  6. Slave 設計

  7. 任務調度及通訊協議

  8. 分佈式集羣部署的爬蟲

  9. 分佈式部署的爬蟲集羣實現

第四課 數據庫系統與爬蟲的數據存儲

  1. SQL 與 NoSQL

  2. Redis

  3. MySQL

  4. MongoDB

  5. 基於分佈式數據庫系統的爬蟲實現

第五課 數據庫及優化

  1. MySQL 數據庫架構

  2. 數據庫存儲引擎及結構

  3. 數據庫查詢過程

  4. 數據庫優化案例

  5. 翻頁查詢及優化

第六課 PageRank、網頁動態重拍及應對反爬蟲技術 

  1. PageRank 計算模型及推導

  2. 網頁抓取順序重排

  3. 網站服務架構

  4. 尋找與利用分佈式服務器

  5. 多IP技術與路由控制

  6. 應對大多數反爬規則的爬蟲系統架構

第七課 Taobao 針對 WebDriver 的識別方案及應對,淘寶、京東網站數據的抓取

  1. Selenium + PhantomJS 架構

  2. Selenium + Headless Chrome

  3. 應對淘寶對 WebDriver 的檢查

  4. 京東網站結構分析

  5. 淘寶數據抓取

第八課 微博的抓取與結構化存儲

  1. 微博網站分佈及結構分析

  2. 經過動態頁面來抓取

  3. 微博網絡接口的逆向分析

  4. 利用API來抓取微博

第九課 登陸、日誌系統及守護進程

  1. 表單

  2. 登陸

  3. 守護進程

  4. 日誌系統

第十課 微信:結構分析、AnyProxy 介紹

  1. AnyProxy 抓包工具

  2. 微信公衆號接口分析

  3. 利用 NodeJS 重定向接口

第十一課 微信:抓取策略、代碼講解

  1. 後臺數據獲取及保存

  2. 利用接口直接獲取全部歷史消息

  3. 應對微信公衆號反爬蟲的架構設計

第十二課 Scrapy 爬蟲框架介紹

  1. Sample

  2. 框架分析

  3. 自動生成爬蟲

  4. 控制檯

  5. 流水線

  6. 中間件

第十三課 網頁自動化分類:機器學習和神經網絡實踐

  1. 人工智能的分類問題

  2. 天然語言處理的實體識別

  3. 利用 Google 獲取實體分類的先驗信息

  4. 批量分類數據的獲取

第十四課 爬蟲數據的搜索:ElasticSearch的應用

  1. 搜索引擎架構介紹

  2. 正排表與倒排表

  3. Bool 模型

  4. Vector 模型

  5. 機率模型

  6. TF/IDF

  7. 利用神經網絡抽取特徵並對結果排序

  8. Elastic Search

相關文章
相關標籤/搜索