python 標準庫之xml.etree.ElementTree

簡介html

Element類型是一種靈活的容器對象,用於在內存中存儲結構化數據。python

[注意]xml.etree.ElementTree模塊在應對惡意結構數據時顯得並不安全。安全

每一個element對象都具備如下屬性:app

  1. tag:string對象,表示數據表明的種類。python2.7

  2. attrib:dictionary對象,表示附有的屬性。函數

  3. text:string對象,表示element的內容。spa

  4. tail:string對象,表示element閉合以後的尾跡。debug

  5. 若干子元素(child elements)。code

<tag attrib1=1>text</tag>tail
  1     2        3         4

建立元素的方法有Element或者SubElement(),前者稱做元素的構建函數(constructor),用以構建任一獨存的元素;後者稱做元素的製造函數(factory function),用以製造某一元素的子元素。xml

有了一串元素以後,使用ElementTree類來將其打包,把一串元素轉換爲xml文件或者從xml文件中解析出來。

若想加快速度,可使用C語言編譯的API xml.etree.cElementTree。

 

 導入ElementTree

 

在使用xml.etree.ElementTree時,通常都按以下導入:

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

XML是中結構化數據形式,在ET中使用ElementTree表明整個XML文檔,並視其爲一棵樹,Element表明這個文檔樹中的單個節點。

ET對象具備多種方法從不一樣來源導入數據,以下:

#從硬盤的xml文件讀取數據

import xml.etree.ElementTree as ET
tree = ET.parse('country_data.xml')    #載入數據
root = tree.getroot()    #獲取根節點

#從字符串讀取數據
root = ET.fromstring(country_data_as_string)

[注意]fromstring()是直接獲取string對象中的根節點,所以以上root實際上是一個Element。

做爲一個Element對象,自己是具備子元素,所以能夠直接對Element進行迭代取值:

>>> for child in root:
...   print child.tag, child.attrib
...
country {'name': 'Liechtenstein'}
country {'name': 'Singapore'}
country {'name': 'Panama'}

或者直接使用索引尋找子節點:
>>> root[0][1].text
'2008'

 Element中的遍歷與查詢

Element.iter(tag=None):遍歷該Element全部後代,也能夠指定tag進行遍歷尋找。

Element.findall(path):查找當前元素下tag或path可以匹配的直系節點。

Element.find(path):查找當前元素下tag或path可以匹配的首個直系節點。

Element.text: 獲取當前元素的text值。

Element.get(key, default=None):獲取元素指定key對應的屬性值,若是沒有該屬性,則返回default值。

 Element對象 

class xml.etree.ElementTree.Element(tag, attrib={}, **extra)

  tag:string,元素表明的數據種類。
  text:string,元素的內容。
  tail:string,元素的尾形。
  attrib:dictionary,元素的屬性字典。
  
  #針對屬性的操做
  clear():清空元素的後代、屬性、text和tail也設置爲None。
  get(key, default=None):獲取key對應的屬性值,如該屬性不存在則返回default值。
  items():根據屬性字典返回一個列表,列表元素爲(key, value)。
  keys():返回包含全部元素屬性鍵的列表。
  set(key, value):設置新的屬性鍵與值。

  #針對後代的操做
  append(subelement):添加直系子元素。
  extend(subelements):增長一串元素對象做爲子元素。#python2.7新特性
  find(match):尋找第一個匹配子元素,匹配對象能夠爲tag或path。
  findall(match):尋找全部匹配子元素,匹配對象能夠爲tag或path。
  findtext(match):尋找第一個匹配子元素,返回其text值。匹配對象能夠爲tag或path。
  insert(index, element):在指定位置插入子元素。
  iter(tag=None):生成遍歷當前元素全部後代或者給定tag的後代的迭代器。#python2.7新特性
  iterfind(match):根據tag或path查找全部的後代。
  itertext():遍歷全部後代並返回text值。
  remove(subelement):刪除子元素。 

 ElementTree對象

class xml.etree.ElementTree.ElementTree(element=None, file=None)
  element若是給定,則爲新的ElementTree的根節點。

  _setroot(element):用給定的element替換當前的根節點。慎用。
  
  # 如下方法與Element類中同名方法近似,區別在於它們指定以根節點做爲操做對象。
  find(match)
  findall(match)
  findtext(match, default=None)
  getroot():獲取根節點.
  iter(tag=None)
  iterfind(match)
  parse(source, parser=None):裝載xml對象,source能夠爲文件名或文件類型對象.
  write(fileencoding="us-ascii"xml_declaration=Nonedefault_namespace=None,method="xml") 

 模塊方法

xml.etree.ElementTree.Comment(text=None)

建立一個特別的element,經過標準序列化使其表明了一個comment。comment能夠爲bytestring或unicode。

 

xml.etree.ElementTree.dump(elem)

生成一個element tree,經過sys.stdout輸出,elem能夠是元素樹或單個元素。這個方法最好只用於debug。

 

xml.etree.ElementTree.fromstring(text)

text是一個包含XML數據的字符串,與XML()方法相似,返回一個Element實例。

 

xml.etree.ElementTree.fromstringlist(sequenceparser=None)

從字符串的序列對象中解析xml文檔。缺省parser爲XMLParser,返回Element實例。

New in version 2.7.

 

xml.etree.ElementTree.iselement(element)

檢查是不是一個element對象。

 

xml.etree.ElementTree.iterparse(sourceevents=Noneparser=None)

將文件或包含xml數據的文件對象遞增解析爲element tree,而且報告進度。events是一個彙報列表,若是忽略,將只有end事件會彙報出來。

注意,iterparse()只會在看見開始標籤的">"符號時纔會拋出start事件,所以屆時屬性是已經定義了,可是text和tail屬性在那時尚未定義,一樣子元素也沒有定義,所以他們可能不能被顯示出來。若是你想要完整的元素,請查找end事件。

 

xml.etree.ElementTree.parse(sourceparser=None)

將一個文件或者字符串解析爲element tree。

 

xml.etree.ElementTree.ProcessingInstruction(targettext=None)

這個方法會建立一個特別的element,該element被序列化爲一個xml處理命令。

 

xml.etree.ElementTree.register_namespace(prefixuri)

註冊命名空間前綴。這個註冊是全局有效,任何已經給出的前綴或者命名空間uri的映射關係會被刪除。

New in version 2.7.

 

xml.etree.ElementTree.SubElement(parenttagattrib={}**extra)

子元素工廠,建立一個Element實例並追加到已知的節點。

 

xml.etree.ElementTree.tostring(elementencoding="us-ascii"method="xml")

生成一個字符串來表示表示xml的element,包括全部子元素。element是Element實例,method爲"xml","html","text"。返回包含了xml數據的字符串。

 

xml.etree.ElementTree.tostringlist(elementencoding="us-ascii"method="xml")

生成一個字符串來表示表示xml的element,包括全部子元素。element是Element實例,method爲"xml","html","text"。返回包含了xml數據的字符串列表。

New in version 2.7.

 

xml.etree.ElementTree.XML(textparser=None)

從一個字符串常量中解析出xml片斷。返回Element實例。

 

xml.etree.ElementTree.XMLID(textparser=None)

從字符串常量解析出xml片斷,同時返回一個字典,用以映射element的id到其自身。

相關文章
相關標籤/搜索