python爬蟲抓網頁的總結

這些腳本有一個共性,都是和web相關的,總要用到獲取鏈接的一些方法,再加上simplecd這個半爬蟲半網站的項目,累積不少爬蟲抓站的經驗,在此總結一下,那麼以後做東西也就不用重複勞動了。 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服務器 這在某些情況下比較有用,比如IP被封了,或者比如
相關文章
相關標籤/搜索