使用java的html解析器jsoup和jQuery實現一個自動重複抓取任意網站頁面指定元素的...

日期:2012-7-20  來源:GBin1.comhtml

使用java的html解析器jsoup和jQuery實現一個自動重複抓取任意網站頁面指定元素的web應用

在線演示  本地下載 java

若是你曾經開發過內容聚合類網站的話,使用程序動態整合來自不一樣頁面或者網站內容的功能確定對於你來講很是熟悉。一般使用java的話,咱們都會使用到一些HTML的解析,例如,httpparser,最先gbin1.com的整合搜索就是使用httpparser來抓取Google和Baidu的搜索結果,而且整合呈現給搜索用戶,這也就是GBin1域名的由來。jquery

那麼今天呢,咱們介紹另一個超棒的Java的HTML解析器 - jsoup,這個類庫能夠幫助你們實時的處理HTML。提供了很是方便的API來提取和處理數據,最重要的它使用相似jQuery的語法來處理DOMCSS等,若是你使用過jQuery的話,就知道它處理DOM的強大方便之處。web

主要特性

jsoup實現了WHATWG HTML5 的標準,和現代瀏覽器解析DOM的方式同樣。主要功能:瀏覽器

  • 能夠從URL,文件或者字符串中抓取和解析HTML
  • 使用DOM的查詢和CSS選擇器來查找和解壓數據
  • 能夠處理HTML的屬性,元素和文本
  • 幫助用戶處理遞交的內容,而且防止XSS攻擊
  • 輸出乾淨的HTML

基本上jsoup能夠幫助你處理各類的HTML問題,而且幫助你驗證非法的tag,建立一個乾淨的DOM樹。網站

.....spa

來源:使用java的html解析器jsoup和jQuery實現一個自動重複抓取任意網站頁面指定元素的web應用htm

相關文章
相關標籤/搜索