爬蟲數據清洗之html標籤的清洗

時間 2020-05-13

原文原文鏈接

咱們日常爬取數據時，會常常有多餘的html便籤，下面咱們就來清洗一下這些標籤：html 1，只清洗標籤，能夠用正則，也能夠用remove（），remove_tags（）函數node 正則清洗： import re html='<p class="txt" node-type="feed_list_content" nick-name="人民日報">\n

>>阅读原文<<