requests模塊html
代理ip:面試
線程池:ajax
scrapy正則表達式
下載中間件:redis
攔截請求:瀏覽器
UA假裝:cookie
代理ip的設置:網絡
request.meta['proxy'] = 'http://ip:port'else:
request.meta['proxy'] = 'https://ip:port'
分佈式併發
- 爬取肯德基餐廳位置信息:http://www.kfc.com.cn/kfccda/index.aspx - 爬取藥監總局:http://125.35.6.84:81/xk/ - 爬取糗事百科圖片:https://www.qiushibaike.com/pic/ - 下載免費簡歷模板:http://sc.chinaz.com/jianli/free.html - 煎蛋網圖片爬取:http://jandan.net/ooxx - 解析城市名稱:https://www.aqistudy.cn/historydata/ - 古詩文網:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx - 網易新聞:https://news.163.com/