1.時間css
\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}spa
2. 路徑code
log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$blog
3. 數字結尾ip
log==> \d{2}+$ io
4.綜合class
\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2} log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$註釋
5.去除<>以及其中間的內容di
<([^>]*)>時間
6.去除特殊標籤
#去除註釋 result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context) #去除js result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result) #去除css result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result) #去除HTML標籤 result = re.sub('<[^>]*>',"",result)