follow大神教程——實踐java爬蟲之補充

前4篇利用Java自己自帶的URLConnection實現一些基本的抓取頁面的功能,可是對於一些比較高級的功能,好比重定向的處理,HTML標記的去除,僅僅使用URLConnection仍是不夠的。正則表達式

或許HttpClient抓取頁面和Jsoup語義分析相結合是比較合適的方法?編程

1、知乎下吧第5集http://blog.csdn.net/pleasecallmewhy/article/details/18010015把頁面抓到本地

 

【存疑】接着怎麼用呢?不知道哇編程語言

2、 正則表達式基礎

http://blog.csdn.net/pleasecallmewhy/article/details/8929576工具

1.1.概念介紹spa

正則表達式是用於處理字符串的強大工具,它並非Python的一部分。.net

其餘編程語言中也有正則表達式的概念,區別只在於不一樣的編程語言實現支持的語法數量不一樣。blog

它擁有本身獨特的語法以及一個獨立的處理引擎,在提供了正則表達式的語言裏,正則表達式的語法都是同樣的。字符串

下圖展現了使用正則表達式進行匹配的流程:get

正則表達式的大體匹配過程是:io

1.依次拿出表達式和文本中的字符比較,

2.若是每個字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。

3.若是表達式中有量詞或邊界,這個過程會稍微有一些不一樣。

下圖列出了Python支持的正則表達式元字符和語法:  

正則表達式一般用於在文本中查找匹配的字符串。

貪婪模式,老是嘗試匹配儘量多的字符;

非貪婪模式則相反,老是嘗試匹配儘量少的字符。

Python裏數量詞默認是貪婪的。

例如:正則表達式"ab*"若是用於查找"abbbc",將找到"abbb"。

而若是使用非貪婪的數量詞"ab*?",將找到"a"。

相關文章
相關標籤/搜索