正則留檔

1.時間css

\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}spa

2. 路徑code

log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$blog

3. 數字結尾ip

log==> \d{2}+$ io

4.綜合class

\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2}  log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$註釋

5.去除<>以及其中間的內容di

<([^>]*)>時間

6.去除特殊標籤

#去除註釋
result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context)
#去除js
result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result)
#去除css
result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result)
#去除HTML標籤
result = re.sub('<[^>]*>',"",result)
相關文章
相關標籤/搜索