JAVA解析XML的方式DOM、SAX、DOM4J、JDOM、StAX之詳解與比較

時間 2019-11-08

標籤 java 解析 xml 方式 dom sax dom4j jdom stax 詳解比較欄目 Java 简体版

原文原文鏈接

JAVA解析XML的方式DOM、SAX、DOM4J、JDOM、StAX之詳解與比較javascript

1.各類方式的詳解
1）DOM（JAXP Crimson解析器）

DOM是用與平臺和語言無關的方式表示XML文檔的官方W3C標準。DOM是以層次結構組織的節點或信息片段的集合。這個層次結構容許開發人員在樹中尋找特定信息。分析該結構一般須要加載整個文檔和構造層次結構，而後才能作任何工做。因爲它是基於信息層次的，於是DOM被認爲是基於樹或基於對象的。DOM 以及廣義的基於樹的處理具備幾個優勢。首先，因爲樹在內存中是持久的，所以能夠修改它以便應用程序能對數據和結構做出更改。它還能夠在任什麼時候候在樹中上下導航，而不是像SAX那樣是一次性的處理。DOM使用起來也要簡單得多。

2）SAX

SAX處理的優勢很是相似於流媒體的優勢。分析可以當即開始，而不是等待全部的數據被處理。並且，因爲應用程序只是在讀取數據時檢查數據，所以不須要將數據存儲在內存中。這對於大型文檔來講是個巨大的優勢。事實上，應用程序甚至沒必要解析整個文檔；它能夠在某個條件獲得知足時中止解析。通常來講，SAX還比它的替代者DOM快許多。

選擇DOM仍是選擇SAX？對於須要本身編寫代碼來處理XML文檔的開發人員來講，選擇DOM仍是SAX解析模型是一個很是重要的設計決策。 DOM採用創建樹形結構的方式訪問XML文檔，而SAX採用的事件模型。

DOM 解析器把XML文檔轉化爲一個包含其內容的樹，並能夠對樹進行遍歷。用DOM解析模型的優勢是編程容易，開發人員只須要調用建樹的指令，而後利用 navigation APIs訪問所需的樹節點來完成任務。能夠很容易的添加和修改樹中的元素。然而因爲使用DOM解析器的時候須要處理整個XML文檔，因此對性能和內存的要求比較高，尤爲是遇到很大的XML文件的時候。因爲它的遍歷能力，DOM解析器經常使用於XML文檔須要頻繁的改變的服務中。

SAX解析器採用了基於事件的模型，它在解析XML文檔的時候能夠觸發一系列的事件，當發現給定的tag的時候，它能夠激活一個回調方法，告訴該方法制定的標籤已經找到。SAX對內存的要求一般會比較低，由於它讓開發人員本身來決定所要處理的tag.特別是當開發人員只須要處理文檔中所包含的部分數據時，SAX這種擴展能力獲得了更好的體現。但用SAX解析器的時候編碼工做會比較困難，並且很難同時訪問同一個文檔中的多處不一樣數據。

3）JDOM http://www.jdom.org

JDOM 的目的是成爲Java特定文檔模型，它簡化與XML的交互而且比使用DOM實現更快。因爲是第一個Java特定模型，JDOM一直獲得大力推廣和促進。正在考慮經過「Java規範請求JSR-102」將它最終用做「Java標準擴展」。從2000年初就已經開始了JDOM開發。

JDOM與DOM主要有兩方面不一樣。首先，JDOM僅使用具體類而不使用接口。這在某些方面簡化了API，可是也限制了靈活性。第二，API大量使用了Collections類，簡化了那些已經熟悉這些類的Java開發者的使用。

JDOM 文檔聲明其目的是「使用20%（或更少）的精力解決80%（或更多）Java/XML問題」（根據學習曲線假定爲20%）。JDOM對於大多數 Java/XML應用程序來講固然是有用的，而且大多數開發者發現API比DOM容易理解得多。JDOM還包括對程序行爲的至關普遍檢查以防止用戶作任何在XML中無心義的事。然而，它仍須要您充分理解XML以便作一些超出基本的工做（或者甚至理解某些狀況下的錯誤）。這也許是比學習DOM或JDOM接口都更有意義的工做。

JDOM自身不包含解析器。它一般使用SAX2解析器來解析和驗證輸入XML文檔（儘管它還能夠將之前構造的 DOM表示做爲輸入）。它包含一些轉換器以將 JDOM表示輸出成SAX2事件流、DOM模型或XML文本文檔。JDOM是在Apache許可證變體下發布的開放源碼。

4）DOM4J http://dom4j.sourceforge.net

雖然DOM4J表明了徹底獨立的開發結果，但最初，它是JDOM的一種智能分支。它合併了許多超出基本XML文檔表示的功能，包括集成的XPath支持、 XML Schema支持以及用於大文檔或流化文檔的基於事件的處理。它還提供了構建文檔表示的選項，它經過DOM4J API和標準DOM接口具備並行訪問功能。從2000下半年開始，它就一直處於開發之中。

爲支持全部這些功能，DOM4J使用接口和抽象基本類方法。DOM4J大量使用了API中的Collections類，可是在許多狀況下，它還提供一些替代方法以容許更好的性能或更直接的編碼方法。直接好處是，雖然DOM4J付出了更復雜的API的代價，可是它提供了比JDOM大得多的靈活性。

在添加靈活性、XPath集成和對大文檔處理的目標時，DOM4J的目標與JDOM是同樣的：針對Java開發者的易用性和直觀操做。它還致力於成爲比 JDOM更完整的解決方案，實如今本質上處理全部Java/XML問題的目標。在完成該目標時，它比JDOM更少強調防止不正確的應用程序行爲。

DOM4J是一個很是很是優秀的Java XML API，具備性能優異、功能強大和極端易用使用的特色，同時它也是一個開放源代碼的軟件。現在你能夠看到愈來愈多的Java軟件都在使用DOM4J來讀寫 XML，特別值得一提的是連Sun的JAXM也在用DOM4J.

5）StAX

JDK6的新特性StAX(JSR 173)是JDK6.0中除了DOM和SAX以外的又一種處理XML文檔的API

StAX的來歷
在JAXP1.3(JSR 206)有兩種處理XML文檔的方法:DOM(Document Object Model)和SAX(Simple API forXML).因爲JDK6.0中的JAXB2(JSR 222)和JAX-WS 2.0(JSR224)都會用到StAX因此Sun決定把StAX加入到JAXP家族當中來，並將JAXP的版本升級到1.4(JAXP1.4是 JAXP1.3的維護版本),JDK6裏面JAXP的版本就是1.4。
StAX是The Streaming API for XML的縮寫，一種利用拉模式解析(pull-parsing)XML文檔的API.StAX經過提供一種基於事件迭代器(Iterator)的API讓程序員去控制xml文檔解析過程,程序遍歷這個事件迭代器去處理每個解析事件，解析事件能夠看作是程序拉出來的，也就是程序促使解析器產生一個解析事件而後處理該事件，以後又促使解析器產生下一個解析事件，如此循環直到碰到文檔結束符；SAX也是基於事件處理xml文檔，但倒是用推模式解析，解析器解析完整個xml文檔後，才產生解析事件，而後推給程序去處理這些事件；DOM採用的方式是將整個xml文檔映射到一顆內存樹，這樣就能夠很容易地獲得父節點和子結點以及兄弟節點的數據，但若是文檔很大，將會嚴重影響性能。

2、性能比較

1）DOM4J性能最好，連Sun的JAXM也在用DOM4J.目前許多開源項目中大量採用DOM4J，例如大名鼎鼎的Hibernate也用DOM4J來讀取XML配置文件。若是不考慮可移植性，那就採用DOM4J.

2）JDOM 和DOM在性能測試時表現不佳，在測試10M文檔時內存溢出。在小文檔狀況下還值得考慮使用DOM和JDOM.雖然JDOM的開發者已經說明他們指望在正式發行版前專一性能問題，可是從性能觀點來看，它確實沒有值得推薦之處。另外，DOM還是一個很是好的選擇。DOM實現普遍應用於多種編程語言。它仍是許多其它與XML相關的標準的基礎，由於它正式得到W3C推薦（與基於非標準的Java模型相對），因此在某些類型的項目中可能也須要它（如在 javascript中使用DOM）。

3）SAX表現較好，這要依賴於它特定的解析方式－事件驅動。一個SAX檢測即將到來的XML流，但並無載入到內存（固然當XML流被讀入時，會有部分文檔暫時隱藏在內存中）。

如下是各類方式解析XML的java實例：
1.DOM解析XMLjava

package com.xml.parseXml;

import java.io.IOException;
import java.io.InputStream;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

import com.xml.bean.Address;
import com.xml.bean.ReadXmlFileStream;

public class DOMParseXml {

    private static Address address = new Address();
    
    
    public static void main(String[] args) {

        long lasting = System.currentTimeMillis();
        
        try {
            InputStream in = ReadXmlFileStream.getXmlFileStream();
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            Document document = builder.parse(in);
            Element root = document.getDocumentElement();
            NodeList valueNode = root.getElementsByTagName("value");
            System.out.println("addresses:" + root + root.getChildNodes() + 
valueNode.getLength());
            
            for( int i=0; i<valueNode.getLength(); i++) {
                System.out.println(i);
                address.setNo(root.getElementsByTagName("no").item(i).getFirstChild()
.getNodeValue());
                address.setAddr(root.getElementsByTagName("addr").item(i).getFirstChild()
.getNodeValue());
                System.out.println(address);
            }
            
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        System.out.println("運行時間：" + (System.currentTimeMillis() - lasting)+ " 毫秒");
    }
}

2.SAX解析XML程序員

package com.xml.parseXml;  
  
import java.io.InputStream;  
import java.util.Stack;  
  
import javax.xml.parsers.SAXParser;  
import javax.xml.parsers.SAXParserFactory;  
  
import org.xml.sax.Attributes;  
import org.xml.sax.InputSource;  
import org.xml.sax.SAXException;  
import org.xml.sax.helpers.DefaultHandler;  
  
import com.xml.bean.Address;  
import com.xml.bean.ReadXmlFileStream;  
  
public class SAXParseXml extends DefaultHandler {  
  
  
    private static Address address = new Address();  
  
    private Stack tags = new Stack();  
  
    public SAXParseXml() {  
  
    }  
  
    @Override  
    public void characters(char[] ch, int start, int length)  
            throws SAXException {  
  
        String tag = (String) tags.peek();  
        if (tag.equals("no")) {  
            address.setNo(new String(ch, start, length));  
            System.out.println(address.getNo());  
        }  
        if (tag.equals("addr")) {  
            address.setAddr(new String(ch, start, length));  
            System.out.println(address.getAddr());  
        }  
    }  
  
    @Override  
    public void startElement(String uri, String localName, String qName,  
            Attributes attrs) throws SAXException {  
        tags.push(qName);  
    }  
  
    public static void main(String[] args) {  
  
        long lasting = System.currentTimeMillis();  
  
        try {  
            SAXParserFactory factory = SAXParserFactory.newInstance();  
            SAXParser sp = factory.newSAXParser();  
            SAXParseXml reader = new SAXParseXml();  
            InputStream in = ReadXmlFileStream.getXmlFileStream();  
            sp.parse(new InputSource(in), reader);  
            System.out.println("運行時間：" + (System.currentTimeMillis() - lasting)  
                    + " 毫秒");  
  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
    }  
  
}

3.DOM4J解析XML編程

package com.xml.parseXml;  
  
import java.io.InputStream;  
import java.io.InputStreamReader;  
import java.io.Reader;  
import java.util.Iterator;  
  
import org.dom4j.Document;  
import org.dom4j.Element;  
import org.dom4j.io.SAXReader;  
  
import com.xml.bean.Address;  
import com.xml.bean.ReadXmlFileStream;  
  
  
public class DOM4JParseXml {  
  
    private static Address address = new Address();  
  
    public static void main(String[] args) {  
        long starttime = System.currentTimeMillis();  
  
        try {  
            InputStream in = ReadXmlFileStream.getXmlFileStream();  
  
            Reader reader = new InputStreamReader(in, "utf-8"); // 注意編碼問題  
  
            SAXReader SaxReader = new SAXReader();  
            Document doc = SaxReader.read(reader);  
            Element root = doc.getRootElement();  
            Element childNode = null;  
//          枚舉名稱爲value的節點  
            for (Iterator it = root.elementIterator("value"); it.hasNext();) {  
                childNode = (Element) it.next();  
                address.setNo(childNode.elementText("no"));  
                address.setAddr(childNode.elementText("addr"));  
                System.out.println(address);  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
        System.out.println("運行時間：" + (System.currentTimeMillis() - starttime)  
                + " 毫秒");  
  
    }  
  
}

4.JDOM解析XMLdom

package com.xml.parseXml;  
  
import java.io.IOException;  
import java.io.InputStream;  
import java.util.List;  
  
import org.jdom.Document;  
import org.jdom.Element;  
import org.jdom.JDOMException;  
import org.jdom.input.SAXBuilder;  
  
import com.xml.bean.Address;  
import com.xml.bean.ReadXmlFileStream;  
  
public class JDOMParseXml {  
  
    private static Address address = new Address();  
  
    public static void main(String[] args) {  
        long lasting = System.currentTimeMillis();  
        try {  
            SAXBuilder builder = new SAXBuilder();  
            InputStream in = ReadXmlFileStream.getXmlFileStream();  
            Document doc = builder.build(in);  
  
            Element root = doc.getRootElement();  
  
            List allChildren = root.getChildren();  
  
            for (int i = 0; i < allChildren.size(); i++) {  
                address.setNo(((Element) allChildren.get(i)).getChild("no")  
                        .getTextTrim());  
                address.setAddr(((Element) allChildren.get(i)).getChild("addr")  
                        .getTextTrim());  
                System.out.println(address);  
            }  
        } catch (JDOMException e) {  
            e.printStackTrace();  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
        System.out.println("運行時間：" + (System.currentTimeMillis() - lasting)  
                + " 毫秒");  
    }  
}

5.StAX解析XMLide

package com.xml.parseXml;  
  
import java.io.InputStream;  
  
import javax.xml.stream.XMLEventReader;  
import javax.xml.stream.XMLInputFactory;  
import javax.xml.stream.events.StartElement;  
import javax.xml.stream.events.XMLEvent;  
  
import com.xml.bean.Address;  
import com.xml.bean.ReadXmlFileStream;  
  
public class StAXParseXml {  
    private static Address address = new Address();  
  
    public static void main(String[] args) {  
  
        long lasting = System.currentTimeMillis();  
  
        try {  
            InputStream in = ReadXmlFileStream.getXmlFileStream();  
  
            XMLInputFactory xmlif = XMLInputFactory.newInstance();  
            // 用於解析 XML 事件的頂層接口  
            XMLEventReader reader = xmlif.createXMLEventReader(in);  
            // 處理標記事件的基礎事件接口  
            XMLEvent event = null;  
  
            while (reader.hasNext()) {  
                event = reader.nextEvent();  
                if (event.isStartElement()) { // 起始元素  
                    StartElement startElt = event.asStartElement();  
                    if (startElt.getName().getLocalPart().equals("no")) {  
                        address.setNo(reader.getElementText());  
                    } else if (startElt.getName().getLocalPart().equals("addr")) {  
                        address.setAddr(reader.getElementText());  
                        System.out.println(address);  
                    }  
                } else if (event.isCharacters()) { // 文本內容  
                    // 相鄰標記之間都是文本內容  
                    System.out.println("解析的是文本內容:"  
                            + event.asCharacters().getData());  
                } else if (event.isEndElement()) { // 結束元素  
                    System.out.println("解析的是結束標記:"  
                            + event.asEndElement().getName());  
                }  
            }  
        } catch (Exception e) {  
            e.printStackTrace();  
        }  
        System.out.println("運行時間：" + (System.currentTimeMillis() - lasting)  
                + " 毫秒");  
  
    }  
  
}

依賴的類：性能

1.Address .java學習

package com.xml.bean;

public class Address {

    private String no;
    private String addr;
    /**
     * @return the no
     */
    public String getNo() {
        return no;
    }
    /**
     * @param no the no to set
     */
    public void setNo(String no) {
        this.no = no;
    }
    /**
     * @return the addr
     */
    public String getAddr() {
        return addr;
    }
    /**
     * @param addr the addr to set
     */
    public void setAddr(String addr) {
        this.addr = addr;
    }
    @Override
    public String toString() {
        return "編號:" + this.no + "，地址：" + this.addr;
    }
    
    
}

2.ReadXmlFileStream .java測試

/**
 * 
 */
package com.xml.bean;

import java.io.InputStream;

public class ReadXmlFileStream {

    private static final String XML_FILE = "com/xml/bean/addresses.xml";

    public static InputStream getXmlFileStream() {
        return Thread.currentThread().getContextClassLoader()
                .getResourceAsStream(XML_FILE);
    }

}

被解析的XML結構：ui

addresses.xml

<?xml version="1.0" encoding="UTF-8"?>
<addresses>
    <value>
        <no>A100</no>
        <addr>廣州天河區天河路</addr>
    </value>
    <value>
        <no>A101</no>
        <addr>廣州天河區五山路</addr>
    </value>
</addresses>