Java爬蟲入門簡介(三) —— Jsoup解析HTML頁面

上一篇博客我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇博客我們將描述如何解析獲取到的頁面內容。 上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML源碼,但是這些源碼是提供給瀏覽器解析用的,我們需要的數據其實是頁面上博客的標題、作者、簡介、發佈日期等。我們需要通過一種方式來從HTML源碼中解析出這類信息並提取,然後存到
相關文章
相關標籤/搜索