日期:2012-7-20 來源:GBin1.comhtml
若是你曾經開發過內容聚合類網站的話,使用程序動態整合來自不一樣頁面或者網站內容的功能確定對於你來講很是熟悉。一般使用java的話,咱們都會使用到一些HTML的解析,例如,httpparser,最先gbin1.com的整合搜索就是使用httpparser來抓取Google和Baidu的搜索結果,而且整合呈現給搜索用戶,這也就是GBin1域名的由來。jquery
那麼今天呢,咱們介紹另一個超棒的Java的HTML解析器 - jsoup,這個類庫能夠幫助你們實時的處理HTML。提供了很是方便的API來提取和處理數據,最重要的它使用相似jQuery的語法來處理DOM,CSS等,若是你使用過jQuery的話,就知道它處理DOM的強大方便之處。web
jsoup實現了WHATWG HTML5 的標準,和現代瀏覽器解析DOM的方式同樣。主要功能:瀏覽器
基本上jsoup能夠幫助你處理各類的HTML問題,而且幫助你驗證非法的tag,建立一個乾淨的DOM樹。網站
.....spa