Htmlparse解析HTML文檔（例）

時間 2019-11-24

原文原文鏈接

//http://hao861002.javaeye.com/blog/288903

Htmlparse解析HTML文檔（例）

關鍵字: parser

import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;

/**
* JAVA中使用Htmlparse解析HTML文檔，使用htmlparse遍歷出HTML文檔的全部超連接（<a>標記）。
*
* @author YYmmiinngg
*/
public class Test {
    public static void main(String[] args) {
        try {
/* 首先咱們先使用HttpRequester類和HttpRespons類得到一個HTTP請求中的數據（HTML文檔）。能夠從([url]http://download.csdn.net/source/321516[/url])中下載htmlloader，該庫中有上述類；或從個人《JAVA發送HTTP請求，返回HTTP響應內容，實例及應用》一文中摘取上述兩JAVA類的代碼。htmlparse能夠從 ([url]http://download.csdn.net/source/321507[/url])中下載
*/
            Map<String, String> map = new HashMap<String, String>();
            HttpRequester request = new HttpRequester();
            HttpRespons hr = request.sendGet("http://www.baidu.com");
            Parser parser = Parser.createParser(hr.getContent(), hr
                    .getContentEncoding());
            try {
                // 經過過濾器過濾出<A>標籤
                NodeList nodeList = parser
                        .extractAllNodesThatMatch(new NodeFilter() {
                            //實現該方法,用以過濾標籤
                            public boolean accept(Node node) {
                                if (node instanceof LinkTag)//標記
                                    return true;
                                return false;
                            }
                        });
                // 打印
                for (int i = 0; i < nodeList.size(); i++) {
                    LinkTag n = (LinkTag) nodeList.elementAt(i);
                    System.out.print(n.getStringText() + " ==>> ");
                    System.out.println(n.extractLink());
                }
            } catch (Exception e) {
                e.printStackTrace();
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

//轉自：[url]http://hao861002.javaeye.com/blog/288903[/url]

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。