業務場景:將公司富文本編輯器生成的html文本使用百家號的接口進行發送,可是百家號對html文本里的img標籤作了限制,標籤裏的圖片連接若是不是它們的域名便不能發送。有預感未來還會出現這樣的需求,寫個博客記錄一下。html
import re
from lxml import etree
html, new_html = '', ''
tree = etree.HTML(html)
new_tag_list = tree.xpath('//img/@src')
split_all = re.split('<img[^>]+>', html) # 若是須要匹配其餘標籤修改爲相應的正則便可
for new_tag, split_piece in zip(new_tag_list, split_all):
new_html += (split_piece + new_tag)
new_html = new_html + split_all[-1]
複製代碼