Scrapy計劃表

第一步

  • Scrapy 一覽:理解Scrapy是什麼,他能幫到你什麼
  • 安裝指南:在電腦上安裝Scrapy
  • Scrapy 教程:編寫第一個Scrapy項目
  • 示例:經過前人寫好的Scrapy項目進行學習

基礎概念

  • 命令行工具:學習使用命令行工具管理Scrapy項目
  • 爬蟲:編寫規則爬取網站
  • 選擇器:使用XPath從網頁中抽取數據
  • Scrapy shell:在一個交互環境中測試抽取代碼
  • Items:定義要抓取的數據字段
  • Item 加載器
  • Item 管道
  • Post處理和數據存儲.
  • 信息流導出:使用不一樣的格式輸出和存儲抓取的數據
  • Requests and Responses:理解用於HTTP請求和響應的類
  • 連接抽取器
  • 配置:學習怎樣配置Scrapy,查看全部可用配置
  • 異常:查看全部可用異常及其含義

內建服務

  • 日誌記錄:學習如何在Scrapy項目中使用Python的內建日誌模塊
  • 統計收集:收集Scrapy爬蟲的統計信息
  • 發送郵件:當某些事件發生時發送郵件提醒
  • Telnet 控制檯:使用後Python控制檯檢視一整正在運行的爬蟲
  • Web 服務:使用Web服務管理和控制爬蟲

特定問題的解決

  • FAQ(常見問題)
  • 爬蟲調試:學習如何調試scrapy爬蟲吃的通常問題
  • Spiders Contracts
  • 通常性練習
  • Broad Crawls
  • 使用Firefox進行數據抓取
  • 使用Firebug
  • Debug內存泄漏
  • 下載和處理文件、圖片
  • 爬蟲部署
  • AutoThrottle extension
  • 壓力測:測試爬蟲在實際機器上的性能表現
  • 任務暫停和恢復

擴展Scrapy

  • 架構概覽:理解Scrapy的架構
  • 下載器中間件:定製網頁請求和下載
  • 爬蟲中間件 :定製爬蟲的輸入和輸出
  • 擴展:使用定製功能擴展Scrapy
  • 核心 API:在擴展和中間件中使用一擴展Scrapy的功能
  • 信號:查看全部可用的信號及怎樣使用它們
  • 數據導出器:快速導出抓取的數據到文件(XML,CSV等等)
相關文章
相關標籤/搜索