[Java]知乎下巴第1集:爬蟲世界百度不單單能夠拿來測網速

上一集中咱們說到須要用Java來製做一個知乎爬蟲,那麼這一次,咱們就來研究一下如何使用代碼獲取到網頁的內容。html

 

首先,沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的瞭解一下。java

 

說到HTML,這裏就涉及到一個GET訪問和POST訪問的問題。正則表達式

若是對這個方面缺少了解能夠閱讀W3C的這篇:《GET對比POST》瀏覽器

 

啊哈,在此再也不贅述。網絡

 

而後咧,接下來咱們須要用Java來爬取一個網頁的內容。函數

這時候,咱們的百度就要派上用場了。工具

沒錯,他再也不是那個默默無聞的網速測試器了,他即將成爲咱們的爬蟲小白鼠!~測試

 

咱們先來看看百度的首頁:url

相信你們都知道,如今這樣的一個頁面,是HTML和CSS共同工做的結果。spa

咱們在瀏覽器中右擊頁面,選擇「查看頁面源代碼」:

沒錯,就是這一坨翔同樣的東西。這就是百度頁面的源代碼。

接下來咱們的任務,就是使用咱們的爬蟲也獲取到同樣的東西。

 

 

先來看一段簡單的源碼:

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. import java.io.*;  
  2. import java.net.*;  
  3.   
  4. public class Main {  
  5.     public static void main(String[] args) {  
  6.         // 定義即將訪問的連接  
  7.         String url = "http://www.baidu.com";  
  8.         // 定義一個字符串用來存儲網頁內容  
  9.         String result = "";  
  10.         // 定義一個緩衝字符輸入流  
  11.         BufferedReader in = null;  
  12.   
  13.         try {  
  14.             // 將string轉成url對象  
  15.             URL realUrl = new URL(url);  
  16.             // 初始化一個連接到那個url的鏈接  
  17.             URLConnection connection = realUrl.openConnection();  
  18.             // 開始實際的鏈接  
  19.             connection.connect();  
  20.             // 初始化 BufferedReader輸入流來讀取URL的響應  
  21.             in = new BufferedReader(new InputStreamReader(  
  22.                     connection.getInputStream()));  
  23.             // 用來臨時存儲抓取到的每一行的數據  
  24.             String line;  
  25.             while ((line = in.readLine()) != null) {  
  26.                 //遍歷抓取到的每一行並將其存儲到result裏面  
  27.                 result += line;  
  28.             }  
  29.         } catch (Exception e) {  
  30.             System.out.println("發送GET請求出現異常!" + e);  
  31.             e.printStackTrace();  
  32.         }  
  33.         // 使用finally來關閉輸入流  
  34.         finally {  
  35.             try {  
  36.                 if (in != null) {  
  37.                     in.close();  
  38.                 }  
  39.             } catch (Exception e2) {  
  40.                 e2.printStackTrace();  
  41.             }  
  42.         }  
  43.         System.out.println(result);  
  44.     }  
  45. }  


以上就是Java模擬Get訪問百度的Main方法,

能夠運行一下看看結果:

啊哈,和咱們前面用瀏覽器看到的如出一轍。至此,一個最最簡單的爬蟲就算是作好了。

 

可是這麼一大坨東西未必都是我想要的啊,怎麼從中抓取出我想要的東西呢?

以百度的大爪子Logo爲例。

 

臨時需求:

獲取百度Logo的大爪子的圖片連接。

 

 

先說一下瀏覽器的查看方法。

鼠標對圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太同樣):

啊哈,能夠看到在一大堆div的圍攻下的可憐的img標籤。

這個src就是圖像的連接了。

 

那麼在java中咱們怎麼搞呢?

事先說明,爲了方便演示代碼,全部代碼均未做類封裝,還請諒解。

咱們先把前面的代碼封裝成一個sendGet函數:

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. import java.io.*;  
  2. import java.net.*;  
  3.   
  4. public class Main {  
  5.     static String sendGet(String url) {  
  6.         // 定義一個字符串用來存儲網頁內容  
  7.         String result = "";  
  8.         // 定義一個緩衝字符輸入流  
  9.         BufferedReader in = null;  
  10.   
  11.         try {  
  12.             // 將string轉成url對象  
  13.             URL realUrl = new URL(url);  
  14.             // 初始化一個連接到那個url的鏈接  
  15.             URLConnection connection = realUrl.openConnection();  
  16.             // 開始實際的鏈接  
  17.             connection.connect();  
  18.             // 初始化 BufferedReader輸入流來讀取URL的響應  
  19.             in = new BufferedReader(new InputStreamReader(  
  20.                     connection.getInputStream()));  
  21.             // 用來臨時存儲抓取到的每一行的數據  
  22.             String line;  
  23.             while ((line = in.readLine()) != null) {  
  24.                 // 遍歷抓取到的每一行並將其存儲到result裏面  
  25.                 result += line;  
  26.             }  
  27.         } catch (Exception e) {  
  28.             System.out.println("發送GET請求出現異常!" + e);  
  29.             e.printStackTrace();  
  30.         }  
  31.         // 使用finally來關閉輸入流  
  32.         finally {  
  33.             try {  
  34.                 if (in != null) {  
  35.                     in.close();  
  36.                 }  
  37.             } catch (Exception e2) {  
  38.                 e2.printStackTrace();  
  39.             }  
  40.         }  
  41.         return result;  
  42.   
  43.     }  
  44.   
  45.     public static void main(String[] args) {  
  46.         // 定義即將訪問的連接  
  47.         String url = "http://www.baidu.com";  
  48.         // 訪問連接並獲取頁面內容  
  49.         String result = sendGet(url);  
  50.         System.out.println(result);  
  51.     }  
  52. }  


這樣看起來稍微整潔了一點,請原諒我這個強迫症。

 

接下來的任務,就是從獲取到的一大堆東西里面找到那個圖片的連接。

 

咱們首先能夠想到的方法,是對頁面源碼的字符串result使用indexof函數進行String的子串搜索。

沒錯這個方法是能夠慢慢解決這個問題,好比直接indexOf("src")找到開始的序號,而後再稀里嘩啦的搞到結束的序號。

 

不過咱們不能一直使用這種方法,畢竟草鞋只適合出門走走,後期仍是須要切假腿來拿人頭的。

請原諒個人亂入,繼續。

 

那麼咱們用什麼方式來尋找這張圖片的src呢?

沒錯,正以下面觀衆所說,正則匹配。

若是有同窗不太清楚正則,能夠參照這篇文章:[Python]網絡爬蟲(七):Python中的正則表達式教程

簡單來講,正則就像是匹配。

 

好比三個胖子站在這裏,分別穿着紅衣服,藍衣服,綠衣服。

正則就是:抓住那個穿綠衣服的!

而後把綠胖子單獨抓了出來。

就是這麼簡單。

可是正則的語法卻仍是博大精深的,剛接觸的時候不免有點摸不着頭腦,

向你們推薦一個正則的在線測試工具:正則表達式在線測試

 

有了正則這個神兵利器,那麼怎麼在java裏面使用正則呢?

先來看個簡單的小李子吧。

啊錯了,小栗子。

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容  
  2. // 至關於埋好了陷阱匹配的地方就會掉下去  
  3. Pattern pattern = Pattern.compile("href=\"(.+?)\"");  
  4. // 定義一個matcher用來作匹配  
  5. Matcher matcher = pattern.matcher("<a href=\"index.html\">個人主頁</a>");  
  6. // 若是找到了  
  7. if (matcher.find()) {  
  8.     // 打印出結果  
  9.     System.out.println(matcher.group(1));  
  10. }  



 

 

運行結果:

index.html

 

沒錯,這就是咱們的第一個正則代碼。

這樣應用的抓取圖片的連接想必也是信手拈來了。

 

咱們將正則匹配封裝成一個函數,而後將代碼做以下修改:

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. import java.io.*;  
  2. import java.net.*;  
  3. import java.util.regex.*;  
  4.   
  5. public class Main {  
  6.     static String SendGet(String url) {  
  7.         // 定義一個字符串用來存儲網頁內容  
  8.         String result = "";  
  9.         // 定義一個緩衝字符輸入流  
  10.         BufferedReader in = null;  
  11.   
  12.         try {  
  13.             // 將string轉成url對象  
  14.             URL realUrl = new URL(url);  
  15.             // 初始化一個連接到那個url的鏈接  
  16.             URLConnection connection = realUrl.openConnection();  
  17.             // 開始實際的鏈接  
  18.             connection.connect();  
  19.             // 初始化 BufferedReader輸入流來讀取URL的響應  
  20.             in = new BufferedReader(new InputStreamReader(  
  21.                     connection.getInputStream()));  
  22.             // 用來臨時存儲抓取到的每一行的數據  
  23.             String line;  
  24.             while ((line = in.readLine()) != null) {  
  25.                 // 遍歷抓取到的每一行並將其存儲到result裏面  
  26.                 result += line;  
  27.             }  
  28.         } catch (Exception e) {  
  29.             System.out.println("發送GET請求出現異常!" + e);  
  30.             e.printStackTrace();  
  31.         }  
  32.         // 使用finally來關閉輸入流  
  33.         finally {  
  34.             try {  
  35.                 if (in != null) {  
  36.                     in.close();  
  37.                 }  
  38.             } catch (Exception e2) {  
  39.                 e2.printStackTrace();  
  40.             }  
  41.         }  
  42.         return result;  
  43.   
  44.     }  
  45.   
  46.     static String RegexString(String targetStr, String patternStr) {  
  47.         // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容  
  48.         // 至關於埋好了陷阱匹配的地方就會掉下去  
  49.         Pattern pattern = Pattern.compile(patternStr);  
  50.         // 定義一個matcher用來作匹配  
  51.         Matcher matcher = pattern.matcher(targetStr);  
  52.         // 若是找到了  
  53.         if (matcher.find()) {  
  54.             // 打印出結果  
  55.             return matcher.group(1);  
  56.         }  
  57.         return "";  
  58.     }  
  59.   
  60.     public static void main(String[] args) {  
  61.   
  62.         // 定義即將訪問的連接  
  63.         String url = "http://www.baidu.com";  
  64.         // 訪問連接並獲取頁面內容  
  65.         String result = SendGet(url);  
  66.         // 使用正則匹配圖片的src內容  
  67.         String imgSrc = RegexString(result, "即將的正則語法");  
  68.         // 打印結果  
  69.         System.out.println(imgSrc);  
  70.     }  
  71. }  



 

 

 

好的,如今萬事俱備,只差一個正則語法了!

那麼用什麼正則語句比較合適呢?

咱們發現只要抓住了src="xxxxxx"這個字符串,就能抓出整個src連接,

因此簡單的正則語句:src=\"(.+?)\"

 

完整代碼以下:

 

[java]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. import java.io.*;  
  2. import java.net.*;  
  3. import java.util.regex.*;  
  4.   
  5. public class Main {  
  6.     static String SendGet(String url) {  
  7.         // 定義一個字符串用來存儲網頁內容  
  8.         String result = "";  
  9.         // 定義一個緩衝字符輸入流  
  10.         BufferedReader in = null;  
  11.   
  12.         try {  
  13.             // 將string轉成url對象  
  14.             URL realUrl = new URL(url);  
  15.             // 初始化一個連接到那個url的鏈接  
  16.             URLConnection connection = realUrl.openConnection();  
  17.             // 開始實際的鏈接  
  18.             connection.connect();  
  19.             // 初始化 BufferedReader輸入流來讀取URL的響應  
  20.             in = new BufferedReader(new InputStreamReader(  
  21.                     connection.getInputStream()));  
  22.             // 用來臨時存儲抓取到的每一行的數據  
  23.             String line;  
  24.             while ((line = in.readLine()) != null) {  
  25.                 // 遍歷抓取到的每一行並將其存儲到result裏面  
  26.                 result += line;  
  27.             }  
  28.         } catch (Exception e) {  
  29.             System.out.println("發送GET請求出現異常!" + e);  
  30.             e.printStackTrace();  
  31.         }  
  32.         // 使用finally來關閉輸入流  
  33.         finally {  
  34.             try {  
  35.                 if (in != null) {  
  36.                     in.close();  
  37.                 }  
  38.             } catch (Exception e2) {  
  39.                 e2.printStackTrace();  
  40.             }  
  41.         }  
  42.         return result;  
  43.   
  44.     }  
  45.   
  46.     static String RegexString(String targetStr, String patternStr) {  
  47.         // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容  
  48.         // 至關於埋好了陷阱匹配的地方就會掉下去  
  49.         Pattern pattern = Pattern.compile(patternStr);  
  50.         // 定義一個matcher用來作匹配  
  51.         Matcher matcher = pattern.matcher(targetStr);  
  52.         // 若是找到了  
  53.         if (matcher.find()) {  
  54.             // 打印出結果  
  55.             return matcher.group(1);  
  56.         }  
  57.         return "Nothing";  
  58.     }  
  59.   
  60.     public static void main(String[] args) {  
  61.   
  62.         // 定義即將訪問的連接  
  63.         String url = "http://www.baidu.com";  
  64.         // 訪問連接並獲取頁面內容  
  65.         String result = SendGet(url);  
  66.         // 使用正則匹配圖片的src內容  
  67.         String imgSrc = RegexString(result, "src=\"(.+?)\"");  
  68.         // 打印結果  
  69.         System.out.println(imgSrc);  
  70.     }  
  71. }  


這樣咱們就能用java抓出百度LOGO的連接了。

 

好吧雖然花了不少時間講百度,可是基礎要打紮實啦,下次咱們正式開始抓知乎咯!~

相關文章
相關標籤/搜索