Python2.7 HTMLParser模塊學習

HTMLParser模塊主要是用來解析HTML文件。 spa

HTMLParser模塊有一個HTMLParser類,用戶在解析HTML文件時須要重定義其中handle_*方法,該類有以下方法: get

feed(data)分析一些文本數據
close()若是碰到文件結束標記,強制處理緩衝區數據
reset()重置實例,全部未處理的數據都會丟失,初始化時自動調用
getpos()返回當前行的偏移位置,行列
get_starttag_text()返回最近打開過的開始標記文本


handle_starttar(tag,attrs)這個方法處理開始的標記,tag是標記的名稱,都會被轉化爲小寫來處理。attrs是一對(name,value)對
handle_endtag(tag)這個方法處理結尾的標記
handle_startendtag(tag,attrs)和handle_starttag相似,可是若是遇到空標記,
handle_data(data)這個方法用來處理數據
handle_entityref(name)
handle_charref(name)
handle_comment(data)這個方法處理註釋,<!--comment-->
handle_decl(decl)這個方法處理doctype declaration
相關文章
相關標籤/搜索