python scrapy

一、要求:python基礎,python web框架的瞭解,web.py\flask\django等,爬蟲框架scrapy的基礎,html解析技術bs\xpath等html

二、設計爬蟲策略python

三、反爬蟲處理,模擬瀏覽器,使用代理ip等mysql

四、分佈式爬蟲 scrapy-redis,利用redis對url去重,存儲並實現多臺機器運行git

五、數據存儲通常用Mongodb,數據量少能夠用mysql等github

六、數據的處理:a、json與object的處理     b、字符的處理python3默認所有采用utf-8   c、對url的字符處理(處理成Unicode,urllib.parse.quote("中文")) d、對網頁或請求返回的數據字符處理(encode=utf-8)web

七、實時爬蟲利用網絡的搜索引擎,結合動態web框架,實現實時爬取搜索出的內容redis

代碼項目:能夠參考github上的項目sql

實現爬取的本身寫了一個小項目,如須要私信django

相關文章
相關標籤/搜索