java 調用 phantomjs

java 調用 phantomjs

 分類:
日前有采集需求,當我把全部的對應頁面的連接都拿到手,準備開始根據連接去採集(寫爬蟲爬取)對應的終端頁的時候,發覺用程序獲取到的數據根本沒有對應的內容,但是個人瀏覽器看到的內容明明是有的,因而瀏覽器查看源代碼也發覺沒有,此時想起該網頁應該是ajax加載的。不知道ajax的小朋友能夠去學下web開發啦。
    採集ajax生成的內容手段不外乎兩種。一種是經過http觀察加載頁面時候的請求,而後咱們模仿該請求去獲得對應的內容,第二種則是模仿瀏覽器行爲去渲染這個頁面獲得內容。我在這裏決定採用第二種方式,以前一直玩webkit,不過一直要加載頁面太浪費資源了,此時瞭解到有一個好玩的玩意phantomjs,這是個能夠用命令行來操做webkit的玩意,而後也能夠直接在裏面用js的api去操做頁面(固然,我這邊比較簡單就懶得用了)。
     下載完phantomjs以後直接解壓就能夠使用,而後在path目錄加入phantomjs的路徑(以便直接在命令行就能夠執行phantomjs命令)。
    接下來要完成個代碼,一個是用phantomjs去獲取頁面(採用js編寫行爲),一個是採用java去調用phantomjs來達到獲取內容的做用,接下來直接貼代碼。

 

 

[javascript]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. //codes.js     
  2. system = require('system')     
  3. address = system.args[1];//得到命令行第二個參數 接下來會用到     
  4. //console.log('Loading a web page');     
  5. var page = require('webpage').create();     
  6. var url = address;     
  7. //console.log(url);     
  8. page.open(url, function (status) {     
  9.     //Page is loaded!     
  10.     if (status !== 'success') {     
  11.         console.log('Unable to post!');     
  12.     } else {     
  13.         //console.log(page.content);     
  14.         //var title = page.evaluate(function() {     
  15.         //  return document.title;//示範下如何使用頁面的jsapi去操做頁面的  www.oicqzone.com   
  16.         //  });     
  17.         //console.log(title);     
  18.              
  19.         console.log(page.content);     
  20.     }        
  21.     phantom.exit();     
  22. });  

 

 

 

上述的js代碼估計應該沒幾個看不懂的。。。
 
接下來貼java代碼!

 

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. import org.apache.commons.io.IOUtils;     
  2.      
  3. import java.io.*;     
  4.      
  5. /**   
  6.  * Created with IntelliJ IDEA.   
  7.  * User: lsz   
  8.  * Date: 14-4-22   
  9.  * Time: 下午1:17   
  10.  * utils for http   
  11.  */     
  12. public class HttpUtils {     
  13.     public static String getAjaxCotnent(String url) throws IOException {     
  14.         Runtime rt = Runtime.getRuntime();     
  15.         Process p = rt.exec("phantomjs.exe c:/phantomjs/codes.js "+url);//這裏個人codes.js是保存在c盤下面的phantomjs目錄     
  16.         InputStream is = p.getInputStream();     
  17.         BufferedReader br = new BufferedReader(new InputStreamReader(is));     
  18.         StringBuffer sbf = new StringBuffer();     
  19.         String tmp = "";     
  20.         while((tmp = br.readLine())!=null){     
  21.             sbf.append(tmp);     
  22.         }     
  23.         //System.out.println(sbf.toString());     
  24.         return sbf.toString();     
  25.     }     
  26.      
  27.     public static void main(String[] args) throws IOException {     
  28.         getAjaxCotnent("http://www.oicqzone.com");     
  29.     }     
  30. }    
相關文章
相關標籤/搜索