爬蟲數據清洗之html標籤的清洗

    咱們日常爬取數據時,會常常有多餘的html便籤,下面咱們就來清洗一下這些標籤:html 1,只清洗標籤,能夠用正則,也能夠用remove(),remove_tags()函數node 正則清洗: import re html='<p class="txt" node-type="feed_list_content" nick-name="人民日報">\n                  
相關文章
相關標籤/搜索