學習http://blog.csdn.net/pleasecallmewhy/article/details/17594303html
import java.io.*; import java.net.*; import java.util.regex.*; public class Javaspider { static String SendGet(String url) { // 定義一個字符串用來存儲網頁內容 String result = ""; // 定義一個緩衝字符輸入流 BufferedReader in = null; try { // 將string轉成url對象 URL realUrl = new URL(url); // 初始化一個連接到那個url的鏈接 URLConnection connection = realUrl.openConnection(); // 開始實際的鏈接 connection.connect(); // 初始化 BufferedReader輸入流來讀取URL的響應 in = new BufferedReader(new InputStreamReader( connection.getInputStream(),"utf-8"));//指定編碼方式 // 用來臨時存儲抓取到的每一行的數據 String line; while ((line = in.readLine()) != null) { // 遍歷抓取到的每一行並將其存儲到result裏面 result += line; } } catch (Exception e) { System.out.println("發送GET請求出現異常!" + e); e.printStackTrace(); } // 使用finally來關閉輸入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static String RegexString(String targetStr, String patternStr) { // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容 // 至關於埋好了陷阱匹配的地方就會掉下去 Pattern pattern = Pattern.compile(patternStr); // 定義一個matcher用來作匹配 Matcher matcher = pattern.matcher(targetStr); // 若是找到了 if (matcher.find()) { // 打印出結果 return matcher.group(1); } return "Nothing"; } public static void main(String[] args) { // 定義即將訪問的連接 String url = "http://www.sogou.com"; // 訪問連接並獲取頁面內容 String result = SendGet(url); // 使用正則匹配圖片的src內容 String imgSrc = RegexString(result, "src=\"(.+?)\""); // 打印結果 System.out.println(imgSrc); } }
運行結果:java
sogou審查元素中有這句<img src="http://www.sogou.com/images/logo/new/sogou.png" width="400" height="150" alt="">jquery
源文件之中src開頭的語句挺多的,那src=\"(.+?)\"是怎麼匹配到這個結果的呢?請繼續看正則表達式
1. 獲取指定頁面的html源碼,存儲在字符串中服務器
2. 經過正則表達式找出字符串中的匹配項。網絡
以python爲例ide
程序能夠執行這兩步,咱們也能夠手動複製源碼,用在線正則工具來反向驗證。函數
這裏注意一點,在咱們的討論範圍內,程序向百度服務器get資源,並獲得響應獲取html源碼的過程至關於匿名用戶訪問。工具
也就是說使用登陸模式下看到的源碼,並不能達到反向驗證的目的。
讓咱們退出登陸,從新看看源碼以及反向驗證結果。
咱們簡化問題,看看如何從多組類似像中找出想要的logo1.png
In [60]: txt=''' ....: 666src="//www.baidu.com/img/bd_logo1.png" ....: src="//www.baidu.com/img/baidu_jgylogo3.gif" ....: src="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/static/protocol/https/jquery/jquery-1.10.2.min_f2fb5194.js"''' In [61]: txt Out[61]: '\n666src="//www.baidu.com/img/bd_logo1.png"\nsrc="//www.baidu.com/img/baidu_jgylogo3.gif"\nsrc="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/static/protocol/https/jquery/jquery-1.10.2.min_f2fb5194.js"' In [64]: res.group() Out[64]: 'src="//www.baidu.com/img/bd_logo1.png"'
咱們指定的正則表達式確實會匹配三個結果。可是re模塊提供的search函數會從待匹配文本中找到第一個匹配項並返回。
re提供的其餘重要函數包括:
match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
這個方法將從string的pos下標處起嘗試匹配pattern;若是pattern結束時仍可匹配,則返回一個Match對象;若是匹配過程當中pattern沒法匹配,或者匹配未結束就已到達endpos,則返回None。
search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
這個方法用於查找字符串中能夠匹配成功的子串。從string的pos下標處起嘗試匹配pattern,若是pattern結束時仍可匹配,則返回一個Match對象;
split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照可以匹配的子串將string分割後返回列表。maxsplit用於指定最大分割次數,不指定將所有分割。
findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string,以列表形式返回所有能匹配的子串。
sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替換string中每個匹配的子串後返回替換後的字符串。
當repl是一個字符串時,可使用\id或\g<id>、\g<name>引用分組,但不能使用編號0。
當repl是一個方法時,這個方法應當只接受一個參數(Match對象),並返回一個字符串用於替換(返回的字符串中不能再引用分組)。
count用於指定最多替換次數,不指定時所有替換。
ref
[Python]網絡爬蟲(二):利用urllib2經過指定的URL抓取網頁內容
[Python]網絡爬蟲(七):Python中的正則表達式教程
其中,