xml便可擴展標記語言,它能夠用來標記數據、定義數據類型,是一種容許用戶對本身的標記語言進行定義的源語言。從結構上,很像HTML超文本標記語言。但他們被設計的目的是不一樣的,超文本標記語言被設計用來顯示數據,其焦點是數據的外觀。它被設計用來傳輸和存儲數據,其焦點是數據的內容。那麼Python是如何處理XML語言文件的呢?下面一塊兒來看看Python經常使用內置模塊之xml模塊吧。 python
本文主要學習的ElementTree是python的XML處理模塊,它提供了一個輕量級的對象模型。在使用ElementTree模塊時,須要import xml.etree.ElementTree的操做。ElementTree表示整個XML節點樹,而Element表示節點數中的一個單獨的節點。 函數
ElementTree(tag),其中tag表示根節點,初始化一個ElementTree對象。 學習
Element(tag, attrib={}, **extra)函數用來構造XML的一個根節點,其中tag表示根節點的名稱,attrib是一個可選項,表示節點的屬性。 網站
SubElement(parent, tag, attrib={}, **extra)用來構造一個已經存在的節點的子節點 Element.text和SubElement.text表示element對象的額外的內容屬性,Element.tag和Element.attrib分別表示element對象的標籤和屬性。 ui
ElementTree.write(file, encoding='us-ascii', xml_declaration=None, default_namespace=None, method='xml'),函數新建一個XML文件,而且將節點數數據寫入XML文件中。 url
下面以新建一個網站的sitemap.xml文件爲例進行代碼示例spa
#!/usr/bin/env python # -*- coding:utf-8 -*- from xml.etree import ElementTree as ET def build_sitemap(): urlset = ET.Element("urlset") #設置一個根節點,標籤爲urlset url = ET.SubElement(urlset,"url") #在根節點urlset下創建子節點 loc = ET.SubElement(url,"loc") loc.text = "http://www/baidu.com" lastmod = ET.SubElement(url,"lastmod") lastmod.text = "2017-10-10" changefreq = ET.SubElement(url,"changefreq") changefreq.text = "daily" priority = ET.SubElement(url,"priority") priority.text = "1.0" tree = ET.ElementTree(urlset) tree.write("sitemap.xml") if __name__ == '__main__': build_sitemap()
結果以下圖所示:設計
ElementTree.parse(source, parser=None),將xml文件加載並返回ElementTree對象。parser是一個可選的參數,若是爲空,則默認使用標準的XMLParser解析器。xml
ElementTree.getroot(),獲得根節點。返回根節點的element對象。對象
Element.remove(tag),刪除root下名稱爲tag的子節點 如下函數,ElementTree和Element的對象都包含。
find(match),獲得第一個匹配match的子節點,match能夠是一個標籤名稱或者是路徑。返回個element findtext(match,default=None),獲得第一個配置的match的element的內容 findall(match),獲得匹配match下的全部的子節點,match能夠是一個標籤或者是路徑,它會返回一個list,包含匹配的elements的信息 iter(tag),建立一個以當前節點爲根節點的iterator。
仍是以上面建立的sitemap.xml爲例,對其進行必定的修改,代碼示例以下:
#!/usr/bin/env python # -*- coding:utf-8 -*- from xml.etree import ElementTree as ET tree = ET.parse("sitemap.xml") url = tree.find("url") for rank in tree.iter('loc'): rank.text = "http://www.adminba.com" tree.write("sitemap.xml")
以上的代碼將url修改成http://www.adminba.com了。另外,節點還有set(設置節點屬性)、attrib(刪除節點屬性)方法。