python scrapy

時間 2019-12-18

標籤 python scrapy 欄目 Python 简体版

原文原文鏈接

一、要求：python基礎，python web框架的瞭解，web.py\flask\django等，爬蟲框架scrapy的基礎，html解析技術bs\xpath等html

二、設計爬蟲策略python

三、反爬蟲處理，模擬瀏覽器，使用代理ip等mysql

四、分佈式爬蟲 scrapy-redis，利用redis對url去重，存儲並實現多臺機器運行git

五、數據存儲通常用Mongodb，數據量少能夠用mysql等github

六、數據的處理：a、json與object的處理 b、字符的處理python3默認所有采用utf-8 c、對url的字符處理(處理成Unicode，urllib.parse.quote("中文")) d、對網頁或請求返回的數據字符處理（encode=utf-8）web

七、實時爬蟲利用網絡的搜索引擎，結合動態web框架，實現實時爬取搜索出的內容redis

代碼項目：能夠參考github上的項目sql

實現爬取的本身寫了一個小項目，如須要私信django

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。