Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

時間 2021-01-03

原文原文鏈接

上一篇博客我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇博客我們將描述如何解析獲取到的頁面內容。上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML源碼，但是這些源碼是提供給瀏覽器解析用的，我們需要的數據其實是頁面上博客的標題、作者、簡介、發佈日期等。我們需要通過一種方式來從HTML源碼中解析出這類信息並提取，然後存到

>>阅读原文<<