python爬蟲抓網頁的總結

時間 2021-01-01

原文原文鏈接

這些腳本有一個共性，都是和web相關的，總要用到獲取鏈接的一些方法，再加上simplecd這個半爬蟲半網站的項目，累積不少爬蟲抓站的經驗，在此總結一下，那麼以後做東西也就不用重複勞動了。 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服務器這在某些情況下比較有用，比如IP被封了，或者比如

>>阅读原文<<