爬蟲技術-基於java

一、httpclient/jsoupjavascript

httpclient:用來處理請求(http/s),請求到的html數據,而後使用jsoup解析html

特色:結構不復雜,適合用來處理純靜態的網站java

二、phantomjs/jsoup linux

phantomjs :基於webkit內核的無頭瀏覽器(http://phantomjs.org/)web

特色:能夠處理動態網站(使用javascript渲染),能夠跨平臺(windows/linux均有實現),還能夠作web自動化測試工具。windows

三、htmlunit瀏覽器

https://my.oschina.net/apdplat/blog/217586?p=1工具

java版本的web瀏覽器,能夠解析運行js測試

相關文章
相關標籤/搜索