網頁爬蟲框架jsoup介紹

        序言:在不知道jsoup框架前,由於項目需求。需要定時抓取其它站點上的內容。便想到用HttpClient方式獲取指定站點的內容。這樣的方法比較笨,就是經過url請求指定站點。依據指定站點返回文本解析。說白了HttpClient充當一下瀏覽器的角色。返回的文本需要本身處理,通常都是用string.indexOf或者string.subString方法處理。javascript

        當有一天發現jsoup這個框架時一時感慨。以前的方法太笨了。。。html

        jsoup 是一款Java 的HTML解析器。可直接解析某個URL地址、HTML文本內容。它提供了一套很省力的API,可經過DOM,CSS以及相似於jQuery的操做方法來取出和操做數據。java

jsoup主要功能jquery

1. 從一個URL,文件或字符串中解析HTML。
2. 使用DOM或CSS選擇器來查找、取出數據。
3. 可操做HTML元素、屬性、文本;
jsoup是基於MIT協議公佈的。可放心使用於商業項目。
瀏覽器

jsoup使用方法框架

File input = new File("D:\test.html");
Document doc =Jsoup.parse(input,"UTF-8","網址");
Elements links = doc.select("a[href]"); // 具備href 屬性的連接
Elements pngs = doc.select("img[src$=.png]");//所有引用png圖片的元素
Element masthead =doc.select("div.masthead").first();

有沒有感受似曾相識呢。沒錯,裏邊的使用方法跟javascript和jquery很是像,因此簡單看下jsoup的API就可以直接使用了。


jsoup都可以作什麼呢?post

一、CMS系統常常使用來作新聞的抓取(爬蟲)url

二、防止XSS攻擊。跨站腳本攻擊(Cross Site Scripting),爲不和層疊樣式表(Cascading Style Sheets, CSS)的縮寫混淆。故將跨站腳本攻擊縮寫爲XSS
spa

二、站點的攻擊、破壞(需要熟悉HTTP協議)
code

相關文章
相關標籤/搜索