網頁抓取/數據抽取/信息提取工具包MetaSeeker的翻頁抓取原理

時間 2019-11-17

標籤網頁抓取數據抽取信息提取工具包 metaseeker 翻頁原理欄目 HTML 简体版

原文原文鏈接

目標網站上內容不少時會用多個頁顯示，網頁抓取/數據抽取/信息提取工具包MetaSeeker可以翻頁並提取每一頁的內容，目標網站上展示多頁的方法有多種：javascript

1，頁面上每一頁用另一個URL地址表示。翻這樣的網頁是最好實現的，將這個URL提取下來，之後某個時間加載這個地址的頁面就好了。而MetaSeeker還能夠在一個信息提取事務中將全部的也翻完，在這個會話中這些URL稱爲線內線索，這些URL沒有被記錄下來，翻完也就丟掉了，實際上這類URL記錄下來的意義不大，目標網站顯示多頁時每每使用一個服務器動態頁面，頁碼做爲參數，例如 page=2，這些頁面的內容是變化的，例如，一個博客網站，新博文添加之後，原來的分頁就變了，原來一篇博文位於頁碼2，後來就可能位於頁碼3上了。java

2，頁面上每一頁關聯一段Javascript代碼，被點擊時執行，這是普通爬蟲的天敵，通常的爬蟲難於提取javascript管理的內容，尤爲是用AJAX框架製做的網站，網頁抓取/數據抽取/信息提取工具包MetaSeeker可以模擬用戶的點擊操做，翻頁在一個信息提取事務中完成。node

相關標籤/搜索