使用jsoup輕鬆爬數據

剛剛學習爬蟲,感受使用jsoup爬蟲挺容易的。記錄一下本身爬取數據的過程。數組

Jsoup介紹:

Jsoup 是一個 Java 的開源HTML解析器,可直接解析某個URL地址、HTML文本內容。使用Jsoup首先須要引入Jsoup.jar包或者添加依賴,能夠到Jsoup官網查看。
瀏覽器

elements類至關於網頁元素中的標籤,而select()方法用於按必定條件選取符合條件的標籤,組成符合條件的標籤數組。element支持轉成字符串或者文本等。總之功能很強大。只須要了解一下select()方法的過濾規則便可上手用了。可是有了谷歌瀏覽器!過濾規則都不用管了,直接上手用!學習

來個簡單的示例: 

爬取一下咱們平時使用百度搜索的網頁,首先用谷歌瀏覽器打開百度網頁,打開開發者模式(快捷鍵ctrl+shift+I)。spa

右鍵點擊代碼行,copy–>copy selector code

能夠貼出來看看copy到的東西:blog

head > title

代表了目標在網頁代碼中的位置,每一個>先後面都表明一個檢索條件。那麼咱們要獲得這個標籤,只要這樣寫:element

1 String URL="https://www.baidu.com/"; //目標網址
2 Document doc=Jsoup.connect(URL).get();
3  //在下載的document裏進行檢索的語句
4 Elements test=doc.select("head").select("title");
5 //這樣test標籤就是咱們最開始右鍵單擊檢查的標籤
6 String str=test.toString();//將標籤轉化成字符串
7 String text=test.text();//將標籤裏的文本提取出來
8 System.out.println(str);
9 System.out.println(text);                   

 

運行結果:開發

<title>百度一下,你就知道</title>
百度一下,你就知道
相關文章
相關標籤/搜索