Python2.7 HTMLParser模塊學習

時間 2019-11-10

標籤 python2.7 python htmlparser 模塊學習欄目 Python 简体版

原文原文鏈接

HTMLParser模塊主要是用來解析HTML文件。 spa

HTMLParser模塊有一個HTMLParser類，用戶在解析HTML文件時須要重定義其中handle_*方法，該類有以下方法： get

feed(data)分析一些文本數據
close()若是碰到文件結束標記，強制處理緩衝區數據
reset()重置實例，全部未處理的數據都會丟失，初始化時自動調用
getpos()返回當前行的偏移位置，行列
get_starttag_text()返回最近打開過的開始標記文本

handle_starttar(tag,attrs)這個方法處理開始的標記，tag是標記的名稱，都會被轉化爲小寫來處理。attrs是一對(name,value)對
handle_endtag(tag)這個方法處理結尾的標記
handle_startendtag(tag,attrs)和handle_starttag相似，可是若是遇到空標記，
handle_data(data)這個方法用來處理數據
handle_entityref(name)
handle_charref(name)
handle_comment(data)這個方法處理註釋，
handle_decl(decl)這個方法處理doctype declaration

相關標籤/搜索