JavaShuo
欄目
標籤
Htmlparse解析HTML文檔(例)
時間 2019-11-24
標籤
htmlparse
解析
html
文檔
欄目
HTML
简体版
原文
原文鏈接
//http://hao861002.javaeye.com/blog/288903
Htmlparse解析HTML文檔(例)
關鍵字: parser
import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文檔,使用htmlparse遍歷出HTML文檔的全部超連接(<a>標記)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先咱們先使用HttpRequester類和HttpRespons類得到一個HTTP請求中的數據(HTML文檔)。 能夠從([url]http://download.csdn.net/source/321516[/url])中下載htmlloader,該庫中有上述類;或從個人 《JAVA發送HTTP請求,返回HTTP響應內容,實例及應用》一文中摘取上述兩JAVA類的代碼。htmlparse能夠從 ([url]http://download.csdn.net/source/321507[/url])中下載
*/
Map<String, String> map = new HashMap<String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://www.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 經過過濾器過濾出<A>標籤
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//實現該方法,用以過濾標籤
public boolean accept(Node node) {
if (node instanceof LinkTag)//標記
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
//轉自:
[url]http://hao861002.javaeye.com/blog/288903[/url]
相關文章
1.
HTML文檔解析
2.
Requests-HTML,解析 HTML 文檔
3.
Jsoup解析Html中文文檔
4.
Jsoup解析HTML實例及文檔方法詳解
5.
Jsoup解析HTML、加載文檔等實例
6.
Python解析xml文檔實戰案例
7.
PDF文檔解析:PDFBox和iText實例
8.
解析XML文檔
9.
XML文檔解析
10.
HTML脫離文檔流分析
更多相關文章...
•
TCP報文格式解析
-
TCP/IP教程
•
WSDL 文檔
-
WSDL 教程
•
Scala 中文亂碼解決
•
三篇文章瞭解 TiDB 技術內幕——說存儲
相關標籤/搜索
htmlparse
解析HTML
圖文解析
文檔
中文文檔
解析
解析class文件
Chromium中文文檔
技術文檔
HTML
PHP教程
Thymeleaf 教程
Spring教程
文件系統
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
如何將PPT某一頁幻燈片導出爲高清圖片
2.
Intellij IDEA中使用Debug調試
3.
build項目打包
4.
IDEA集成MAVEN項目極簡化打包部署
5.
eclipse如何導出java工程依賴的所有maven管理jar包(簡單明瞭)
6.
新建的Spring項目無法添加class,依賴下載失敗解決:Maven環境配置
7.
記在使用vue-cli中使用axios的心得
8.
分享提高自己作品UI設計形式感的幾個小技巧!
9.
造成 nginx 403 forbidden 的幾種原因
10.
AOP概述(什麼是AOP?)——Spring AOP(一)
本站公眾號
歡迎關注本站公眾號,獲取更多信息
相關文章
1.
HTML文檔解析
2.
Requests-HTML,解析 HTML 文檔
3.
Jsoup解析Html中文文檔
4.
Jsoup解析HTML實例及文檔方法詳解
5.
Jsoup解析HTML、加載文檔等實例
6.
Python解析xml文檔實戰案例
7.
PDF文檔解析:PDFBox和iText實例
8.
解析XML文檔
9.
XML文檔解析
10.
HTML脫離文檔流分析
>>更多相關文章<<