Scrapy計劃表
第一步
- Scrapy 一覽:理解Scrapy是什麼,他能幫到你什麼
- 安裝指南:在電腦上安裝Scrapy
- Scrapy 教程:編寫第一個Scrapy項目
- 示例:經過前人寫好的Scrapy項目進行學習
基礎概念
- 命令行工具:學習使用命令行工具管理Scrapy項目
- 爬蟲:編寫規則爬取網站
- 選擇器:使用XPath從網頁中抽取數據
- Scrapy shell:在一個交互環境中測試抽取代碼
- Items:定義要抓取的數據字段
- Item 加載器
- Item 管道
- Post處理和數據存儲.
- 信息流導出:使用不一樣的格式輸出和存儲抓取的數據
- Requests and Responses:理解用於HTTP請求和響應的類
- 連接抽取器
- 配置:學習怎樣配置Scrapy,查看全部可用配置
- 異常:查看全部可用異常及其含義
內建服務
- 日誌記錄:學習如何在Scrapy項目中使用Python的內建日誌模塊
- 統計收集:收集Scrapy爬蟲的統計信息
- 發送郵件:當某些事件發生時發送郵件提醒
- Telnet 控制檯:使用後Python控制檯檢視一整正在運行的爬蟲
- Web 服務:使用Web服務管理和控制爬蟲
特定問題的解決
- FAQ(常見問題)
- 爬蟲調試:學習如何調試scrapy爬蟲吃的通常問題
- Spiders Contracts
- 通常性練習
- Broad Crawls
- 使用Firefox進行數據抓取
- 使用Firebug
- Debug內存泄漏
- 下載和處理文件、圖片
- 爬蟲部署
- AutoThrottle extension
- 壓力測:測試爬蟲在實際機器上的性能表現
- 任務暫停和恢復
擴展Scrapy
- 架構概覽:理解Scrapy的架構
- 下載器中間件:定製網頁請求和下載
- 爬蟲中間件 :定製爬蟲的輸入和輸出
- 擴展:使用定製功能擴展Scrapy
- 核心 API:在擴展和中間件中使用一擴展Scrapy的功能
- 信號:查看全部可用的信號及怎樣使用它們
- 數據導出器:快速導出抓取的數據到文件(XML,CSV等等)
歡迎關注本站公眾號,獲取更多信息