follow大神教程——實踐java爬蟲之一

學習http://blog.csdn.net/pleasecallmewhy/article/details/17594303html

 

抓取搜狗首頁logo

import java.io.*;
import java.net.*;
import java.util.regex.*;

public class Javaspider {
	static String SendGet(String url) {
		// 定義一個字符串用來存儲網頁內容
		String result = "";
		// 定義一個緩衝字符輸入流
		BufferedReader in = null;

		try {
			// 將string轉成url對象
			URL realUrl = new URL(url);
			// 初始化一個連接到那個url的鏈接
			URLConnection connection = realUrl.openConnection();
			// 開始實際的鏈接
			connection.connect();
			// 初始化 BufferedReader輸入流來讀取URL的響應
			in = new BufferedReader(new InputStreamReader(
					connection.getInputStream(),"utf-8"));//指定編碼方式
			// 用來臨時存儲抓取到的每一行的數據
			String line;
			while ((line = in.readLine()) != null) {
				// 遍歷抓取到的每一行並將其存儲到result裏面
				result += line;
			}
		} catch (Exception e) {
			System.out.println("發送GET請求出現異常!" + e);
			e.printStackTrace();
		}
		// 使用finally來關閉輸入流
		finally {
			try {
				if (in != null) {
					in.close();
				}
			} catch (Exception e2) {
				e2.printStackTrace();
			}
		}
		return result;

	}

	static String RegexString(String targetStr, String patternStr) {
		// 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
		// 至關於埋好了陷阱匹配的地方就會掉下去
		Pattern pattern = Pattern.compile(patternStr);
		// 定義一個matcher用來作匹配
		Matcher matcher = pattern.matcher(targetStr);
		// 若是找到了
		if (matcher.find()) {
			// 打印出結果
			return matcher.group(1);
		}
		return "Nothing";
	}

	public static void main(String[] args) {

		// 定義即將訪問的連接
		String url = "http://www.sogou.com";  
		// 訪問連接並獲取頁面內容
		String result = SendGet(url);
		// 使用正則匹配圖片的src內容
		String imgSrc = RegexString(result, "src=\"(.+?)\"");
		// 打印結果
		System.out.println(imgSrc);
	}
}

 

運行結果:java

http://www.sogou.com/images/logo/new/sogou.pngpython

sogou審查元素中有這句<img src="http://www.sogou.com/images/logo/new/sogou.png" width="400" height="150" alt="">jquery

源文件之中src開頭的語句挺多的,那src=\"(.+?)\"是怎麼匹配到這個結果的呢?請繼續看正則表達式

 

最簡單的爬蟲工做流程

 

1. 獲取指定頁面的html源碼,存儲在字符串中服務器

2. 經過正則表達式找出字符串中的匹配項。網絡

以python爲例ide

程序能夠執行這兩步,咱們也能夠手動複製源碼,用在線正則工具來反向驗證。函數

這裏注意一點,在咱們的討論範圍內,程序向百度服務器get資源,並獲得響應獲取html源碼的過程至關於匿名用戶訪問。工具

也就是說使用登陸模式下看到的源碼,並不能達到反向驗證的目的。

讓咱們退出登陸,從新看看源碼以及反向驗證結果。

 

在線匹配的結果和線下的爲何不一樣呢?

咱們簡化問題,看看如何從多組類似像中找出想要的logo1.png

 

In [60]: txt='''
   ....: 666src="//www.baidu.com/img/bd_logo1.png"
   ....: src="//www.baidu.com/img/baidu_jgylogo3.gif"
   ....: src="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/static/protocol/https/jquery/jquery-1.10.2.min_f2fb5194.js"'''

In [61]: txt
Out[61]: '\n666src="//www.baidu.com/img/bd_logo1.png"\nsrc="//www.baidu.com/img/baidu_jgylogo3.gif"\nsrc="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/static/protocol/https/jquery/jquery-1.10.2.min_f2fb5194.js"'

In [64]: res.group()
Out[64]: 'src="//www.baidu.com/img/bd_logo1.png"'

咱們指定的正則表達式確實會匹配三個結果。可是re模塊提供的search函數會從待匹配文本中找到第一個匹配項並返回。

re提供的其餘重要函數包括:

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]): 
這個方法將從string的pos下標處起嘗試匹配pattern;若是pattern結束時仍可匹配,則返回一個Match對象;若是匹配過程當中pattern沒法匹配,或者匹配未結束就已到達endpos,則返回None。 

search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]): 
這個方法用於查找字符串中能夠匹配成功的子串。從string的pos下標處起嘗試匹配pattern,若是pattern結束時仍可匹配,則返回一個Match對象;

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]): 
按照可以匹配的子串將string分割後返回列表。maxsplit用於指定最大分割次數,不指定將所有分割。 

 

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]): 
搜索string,以列表形式返回所有能匹配的子串。 


sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]): 
使用repl替換string中每個匹配的子串後返回替換後的字符串。 
當repl是一個字符串時,可使用\id或\g<id>、\g<name>引用分組,但不能使用編號0。 
當repl是一個方法時,這個方法應當只接受一個參數(Match對象),並返回一個字符串用於替換(返回的字符串中不能再引用分組)。 
count用於指定最多替換次數,不指定時所有替換。 

 

ref

[Python]網絡爬蟲(二):利用urllib2經過指定的URL抓取網頁內容

[Python]網絡爬蟲(七):Python中的正則表達式教程

其中,

相關文章
相關標籤/搜索