剛剛學習爬蟲,感受使用jsoup爬蟲挺容易的。記錄一下本身爬取數據的過程。數組
Jsoup 是一個 Java 的開源HTML解析器,可直接解析某個URL地址、HTML文本內容。使用Jsoup首先須要引入Jsoup.jar包或者添加依賴,能夠到Jsoup官網查看。
瀏覽器
elements類至關於網頁元素中的標籤,而select()方法用於按必定條件選取符合條件的標籤,組成符合條件的標籤數組。element支持轉成字符串或者文本等。總之功能很強大。只須要了解一下select()方法的過濾規則便可上手用了。可是有了谷歌瀏覽器!過濾規則都不用管了,直接上手用!學習
爬取一下咱們平時使用百度搜索的網頁,首先用谷歌瀏覽器打開百度網頁,打開開發者模式(快捷鍵ctrl+shift+I)。spa
右鍵點擊代碼行,copy–>copy selector code
能夠貼出來看看copy到的東西:blog
head > title
代表了目標在網頁代碼中的位置,每一個>先後面都表明一個檢索條件。那麼咱們要獲得這個標籤,只要這樣寫:element
1 String URL="https://www.baidu.com/"; //目標網址 2 Document doc=Jsoup.connect(URL).get(); 3 //在下載的document裏進行檢索的語句 4 Elements test=doc.select("head").select("title"); 5 //這樣test標籤就是咱們最開始右鍵單擊檢查的標籤 6 String str=test.toString();//將標籤轉化成字符串 7 String text=test.text();//將標籤裏的文本提取出來 8 System.out.println(str); 9 System.out.println(text);
運行結果:開發
<title>百度一下,你就知道</title>
百度一下,你就知道