2019/4/3 Python今日收穫

時間 2019-12-11

標籤 python 今日收穫欄目 Python 简体版

原文原文鏈接

Python day20——在Python中使用正則表達式去掉字符串裏的html標籤

有時候會得到一些帶html標籤的字符串，須要把html標籤去掉，得到乾淨的字符串，這時候可使用正則表達式。html

代碼以下：正則表達式

import re
 
htmeString = '''<ul id="TopNav"><li><a href="/EditPosts.aspx" id="TabPosts">隨筆</a></li>
        <li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>
        <li><a href="/EditDiary.aspx" id="TabDiary">日記</a></li>
        <li><a href="/Feedback.aspx" id="TabFeedback">評論</a></li>
        <li><a href="/EditLinks.aspx" id="TabLinks">連接</a></li>
        <li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相冊</a></li>
        <li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>
        <li><a href="/Configure.aspx" id="TabConfigure">設置</a></li>
        <li><a href="/Preferences.aspx" id="TabPreferences">選項</a></li></ul>'''
 
 
# 方法 1
pre = re.compile('>(.*?)<')
s1 = ''.join(pre.findall(htmlString))
print(s1)   # '隨筆文章日記評論連接相冊文件設置選項'
 
 
# 方法 2
s2 = re.sub(r'<.*?>','',htmlString)
print(s2)   # '\n\n隨筆\n文章\n日記\n評論\n連接\n相冊\n文件\n設置\n選項\n\n'
 
# 再用str.replace()函數去掉'\n'
s2 = s2.replace('\n','')
print(s2)   # '隨筆文章日記評論連接相冊文件設置選項'

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。