學習了這麼久,其實到這裏纔算是真正意義上的爬蟲
對於爬蟲,有一個頗有意思並且很形象的解釋,把互聯網當成一張蜘蛛網,那麼,每個網頁連接都是 一個節點,這個節點鏈接這通往其餘節點的路,而爬蟲,就像是蜘蛛網上的蜘蛛,它可以順着一個節點爬到另外一個節點,只要時間足夠長,它就能把整張蜘蛛網爬 完,也就獲取到了整個互聯網的數據
經過前面對網頁源碼的分析咱們也能夠知道,網頁源碼中帶下劃線的內容是一些連接,這些連接能夠是另外一個網站的網 址,也能夠是一張圖片的網址,經過連接咱們能夠跳轉到其餘的網站,其餘網站的源碼中又有連接,因此,咱們能夠在不少網頁之中跳轉,經過RE,咱們能夠獲取 到咱們想要的信息
拿咱們如今進行的極視界這個實例來講,打開第一個網頁會出現一些攝影做品相冊的首頁和網址,而後點擊相冊首頁能夠進入相冊,查看相冊裏面的圖片
這裏涉及到了兩個網頁
1. 極視界首頁,首頁列出了攝影做品的相冊網址和相冊名字學習
2. 相冊的網址,能夠瀏覽相冊的圖片
這就要求咱們寫的爬蟲程序可以自動在網頁當中跳轉而且跳轉到正確的頁面以後使用RE將圖片的網址獲取出來,這就是爬蟲的意義
網站
因此這一節咱們就來看一下怎麼使用爬蟲實現多級頁面的跳轉url
實際上有不少種辦法,可是我一開始想到的只有兩個
spa
1. 使用爬蟲模擬咱們點擊網頁連接的操做圖片
2. 在首頁代碼中找出相冊的網址,而後讀取這個網址的源碼再進行分析源碼
第一個看起來很難實現,至少咱們如今所學的知識還不能實現,第二個實際上就是進行兩次網頁源代碼的爬取,這個看起來比較容易實現,因此,試試第二種方法
互聯網
經過前面的分析咱們知道,要實現這個功能咱們至少須要3個步驟程序
1. 在第一個頁面的源碼中找到相冊網址的連接
2. 將相冊主頁做爲url傳入再進行一次爬取源代碼的操做方法
3. 經過對源碼的分析找到圖片的URL,並經過RE將URL提取出來
數據