網頁爬蟲框架jsoup介紹

時間 2019-11-29

標籤網頁爬蟲框架 jsoup 介紹欄目 HTML 简体版

原文原文鏈接

序言：在不知道jsoup框架前，由於項目需求。需要定時抓取其它站點上的內容。便想到用HttpClient方式獲取指定站點的內容。這樣的方法比較笨，就是經過url請求指定站點。依據指定站點返回文本解析。說白了HttpClient充當一下瀏覽器的角色。返回的文本需要本身處理，通常都是用string.indexOf或者string.subString方法處理。javascript

當有一天發現jsoup這個框架時一時感慨。以前的方法太笨了。。。html

jsoup 是一款Java 的HTML解析器。可直接解析某個URL地址、HTML文本內容。它提供了一套很省力的API，可經過DOM，CSS以及相似於jQuery的操做方法來取出和操做數據。java

jsoup主要功能jquery

1. 從一個URL，文件或字符串中解析HTML。
2. 使用DOM或CSS選擇器來查找、取出數據。
3. 可操做HTML元素、屬性、文本；
jsoup是基於MIT協議公佈的。可放心使用於商業項目。瀏覽器

jsoup使用方法框架

File input = new File("D:\test.html");
Document doc =Jsoup.parse(input,"UTF-8","網址");
Elements links = doc.select("a[href]"); // 具備href 屬性的連接
Elements pngs = doc.select("img[src$=.png]");//所有引用png圖片的元素
Element masthead =doc.select("div.masthead").first();

有沒有感受似曾相識呢。沒錯，裏邊的使用方法跟javascript和jquery很是像，因此簡單看下jsoup的API就可以直接使用了。

jsoup都可以作什麼呢？post

一、CMS系統常常使用來作新聞的抓取（爬蟲）url

二、防止XSS攻擊。跨站腳本攻擊(Cross Site Scripting)，爲不和層疊樣式表(Cascading Style Sheets, CSS)的縮寫混淆。故將跨站腳本攻擊縮寫爲XSS
spa

二、站點的攻擊、破壞（需要熟悉HTTP協議）
code