Dom4j格式化轉義字符問題

Dom4j格式化轉義字符問題
 
一、不得不說的XML CDATA部件
 
在XML文檔中的全部文本都會被解析器解析。
 
只有在CDATA部件以內的文本會被解析器忽略。
 
不合法的XML字符必須被替換爲相應的實體。
 
若是在XML文檔中使用相似"<" 的字符, 那麼解析器將會出現錯誤,由於解析器會認爲這是一個新元素的開始。
 
&lt; < 小於號
&gt; > 大於號
&amp; &
&apos; ' 單引號
&quot; " 雙引號

實體必須以符號"&"開頭,以符號";"結尾。
注意: 只有"<" 字符和"&"字符對於XML來講是嚴格禁止使用的。剩下的都是合法的,爲了減小出錯,使用實體是一個好習慣。

CDATA部件
在CDATA內部的全部內容都會被解析器忽略。
若是文本包含了不少的"<"字符和"&"字符——就象程序代碼同樣,那麼最好把他們都放到CDATA部件中。
一個 CDATA 部件以"<![CDATA[" 標記開始,以"]]>"標記結束:

CDATA注意事項:
CDATA部件之間不能再包含CDATA部件(不能嵌套)。若是CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,將頗有可能出錯哦。
一樣要注意在字符串"]]>"之間沒有空格或者換行符。
 
二、Dom4j格式化轉義字符問題
 
person.xml
<? xml version ="1.0" encoding ="UTF-8" ?>
< person >
         < name >張三 </ name >
         < addr ><![CDATA[經三路 < 鑫苑 >19F]]> </ addr >
</ person >
 
上面的XML在被Dom4j格式化的時候,自動會被轉義,轉義後的內容以下:
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[經三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
 
這樣,顯然不是想要的結果,由於CDATA不須要再轉義了。如何處理該問題,看下面的程序的處理:
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;

import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;

/**
* Created by IntelliJ IDEA.
*
* @author leizhimin 2010-7-10 16:03:39
*/

public class Person {
         private String name;
         private String addr;

         public Person(String name, String addr) {
                 this.name = name;
                 this.addr = addr;
        }

         public static void main(String[] args) {
                Person p = new Person( "張三", "經三路<鑫苑>19F");
                p.showXml();
        }

         public void showXml() {
                String xml1, xml2, xml3;
                Document doc = DocumentHelper.createDocument();
                doc.setXMLEncoding( "GBK");
                Element root = doc.addElement( "person");
                 if (addr != null)
                        addElement(root, "toname", "<![CDATA[" + this.addr + "]]>");
                 else
                        addElement(root, "toname", this.addr);

                xml1 = doc.asXML();                                         //默認轉義
                xml2 = formatXml(doc, "GBK", true);         //轉義
                xml3 = formatXml(doc, "GBK", false);     //不轉義
                System.out.println(xml1);
                System.out.println( "-------------------------");
                System.out.println(xml2);
                System.out.println( "-------------------------");
                System.out.println(xml3);
        }

         /**
         * 在指定的元素下添加一個新的子元素
         *
         * @param e         父元素
         * @param name    子元素名
         * @param value 子元素值
         * @return 新加子元素
         */

         public static Element addElement(Element e, String name, Object value) {
                Element x = e.addElement(name);
                 if (value == null || "".equals(value.toString().trim())) {
                        x.setText("");
                } else if (value instanceof Date) {
                        x.setText(DateToolkit.toISOFormat((Date) value));
                } else {
                        x.setText(value.toString());
                }
                 return x;
        }

         /**
         * 格式化XML文檔
         *
         * @param document xml文檔
         * @param charset    字符串的編碼
         * @param istrans    是否對屬性和元素值進行轉移
         * @return 格式化後XML字符串
         */

         public static String formatXml(Document document, String charset, boolean istrans) {
                OutputFormat format = OutputFormat.createPrettyPrint();
                format.setEncoding(charset);
                StringWriter sw = new StringWriter();
                XMLWriter xw = new XMLWriter(sw, format);
                 xw.setEscapeText(istrans);
                 try {
                        xw.write(document);
                        xw.flush();
                        xw.close();
                } catch (IOException e) {
                        System.out.println( "格式化XML文檔發生異常,請檢查!");
                        e.printStackTrace();
                }
                 return sw.toString();
        }
}
 
輸出結果:
<?xml version="1.0" encoding="GBK"?>
<person><toname>&lt;![CDATA[經三路&lt;鑫苑&gt;19F]]&gt;</toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname>&lt;![CDATA[經三路&lt;鑫苑&gt;19F]]&gt;</toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
  <toname><![CDATA[經三路<鑫苑>19F]]></toname>
</person>

Process finished with exit code 0
 
能夠看出,最後一種輸出是真正想要的結果。
 
所以,要控制轉義的問題,必須對XML從新格式化,格式化的時候,須要設置:
        xw.setEscapeText(false);
相關文章
相關標籤/搜索