網頁抓取/數據抽取/信息提取工具包MetaSeeker的翻頁抓取原理

目標網站上內容不少時會用多個頁顯示,網頁抓取/數據抽取/信息提取工具包MetaSeeker可以翻頁並提取每一頁的內容,目標網站上展示多頁的方法有多種:javascript

1,頁面上每一頁用另一個URL地址表示。翻這樣的網頁是最好實現的,將這個URL提取下來,之後某個時間加載這個地址的頁面就好了。而MetaSeeker還能夠在一個信息提取事務中將全部的也翻完,在這個會話中這些URL稱爲線內線索, 這些URL沒有被記錄下來,翻完也就丟掉了,實際上這類URL記錄下來的意義不大,目標網站顯示多頁時每每使用一個服務器動態頁面,頁碼做爲參數,例如 page=2,這些頁面的內容是變化的,例如,一個博客網站,新博文添加之後,原來的分頁就變了,原來一篇博文位於頁碼2,後來就可能位於頁碼3上了。java

2,頁面上每一頁關聯一段Javascript代碼,被點擊時執行,這是普通爬蟲的天敵,通常的爬蟲難於提取javascript管理的內容,尤爲是用AJAX框架製做的網站,網頁抓取/數據抽取/信息提取工具包MetaSeeker可以模擬用戶的點擊操做,翻頁在一個信息提取事務中完成。node

相關文章
相關標籤/搜索