使用jsoup輕鬆爬數據

時間 2019-11-29

標籤使用 jsoup 輕鬆數據欄目 Java 简体版

原文原文鏈接

剛剛學習爬蟲，感受使用jsoup爬蟲挺容易的。記錄一下本身爬取數據的過程。數組

Jsoup介紹：

Jsoup 是一個 Java 的開源HTML解析器，可直接解析某個URL地址、HTML文本內容。使用Jsoup首先須要引入Jsoup.jar包或者添加依賴，能夠到Jsoup官網查看。
瀏覽器

elements類至關於網頁元素中的標籤，而select（）方法用於按必定條件選取符合條件的標籤，組成符合條件的標籤數組。element支持轉成字符串或者文本等。總之功能很強大。只須要了解一下select（）方法的過濾規則便可上手用了。可是有了谷歌瀏覽器！過濾規則都不用管了，直接上手用！學習

來個簡單的示例：

爬取一下咱們平時使用百度搜索的網頁，首先用谷歌瀏覽器打開百度網頁，打開開發者模式(快捷鍵ctrl+shift+I)。spa

右鍵點擊代碼行，copy–>copy selector code

能夠貼出來看看copy到的東西：blog

head > title

代表了目標在網頁代碼中的位置，每一個>先後面都表明一個檢索條件。那麼咱們要獲得這個標籤，只要這樣寫：element

1 String URL="https://www.baidu.com/"; //目標網址
2 Document doc=Jsoup.connect(URL).get();
3  //在下載的document裏進行檢索的語句
4 Elements test=doc.select("head").select("title");
5 //這樣test標籤就是咱們最開始右鍵單擊檢查的標籤
6 String str=test.toString();//將標籤轉化成字符串
7 String text=test.text();//將標籤裏的文本提取出來
8 System.out.println(str);
9 System.out.println(text);

運行結果：開發

<title>百度一下，你就知道</title>
百度一下，你就知道

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。