日前有采集需求,當我把全部的對應頁面的連接都拿到手,準備開始根據連接去採集(寫爬蟲爬取)對應的終端頁的時候,發覺用程序獲取到的數據根本沒有對應的內容,但是個人瀏覽器看到的內容明明是有的,因而瀏覽器查看源代碼也發覺沒有,此時想起該網頁應該是ajax加載的。不知道ajax的小朋友能夠去學下web開發啦。
採集ajax生成的內容手段不外乎兩種。一種是經過http觀察加載頁面時候的請求,而後咱們模仿該請求去獲得對應的內容,第二種則是模仿瀏覽器行爲去渲染這個頁面獲得內容。我在這裏決定採用第二種方式,以前一直玩webkit,不過一直要加載頁面太浪費資源了,此時瞭解到有一個好玩的玩意phantomjs,這是個能夠用命令行來操做webkit的玩意,而後也能夠直接在裏面用js的api去操做頁面(固然,我這邊比較簡單就懶得用了)。
下載完phantomjs以後直接解壓就能夠使用,而後在path目錄加入phantomjs的路徑(以便直接在命令行就能夠執行phantomjs命令)。
接下來要完成個代碼,一個是用phantomjs去獲取頁面(採用js編寫行爲),一個是採用java去調用phantomjs來達到獲取內容的做用,接下來直接貼代碼。
- system = require('system')
- address = system.args[1];
- var page = require('webpage').create();
- var url = address;
- page.open(url, function (status) {
-
- if (status !== 'success') {
- console.log('Unable to post!');
- } else {
-
-
-
-
-
-
- console.log(page.content);
- }
- phantom.exit();
- });
上述的js代碼估計應該沒幾個看不懂的。。。
接下來貼java代碼!
- import org.apache.commons.io.IOUtils;
-
- import java.io.*;
-
- public class HttpUtils {
- public static String getAjaxCotnent(String url) throws IOException {
- Runtime rt = Runtime.getRuntime();
- Process p = rt.exec("phantomjs.exe c:/phantomjs/codes.js "+url);
- InputStream is = p.getInputStream();
- BufferedReader br = new BufferedReader(new InputStreamReader(is));
- StringBuffer sbf = new StringBuffer();
- String tmp = "";
- while((tmp = br.readLine())!=null){
- sbf.append(tmp);
- }
-
- return sbf.toString();
- }
-
- public static void main(String[] args) throws IOException {
- getAjaxCotnent("http://www.oicqzone.com");
- }
- }