[python] 爬取網站全部的URL

時間 2019-12-05

標籤 python 網站全部 url 欄目 Python 简体版

原文原文鏈接

運行python腳本，最終程序目錄下會是這樣：css result.txt中保存全部的URLpython 文件夾sh.neusoft.com中保存爬蟲獲得的全部網頁web main.py的源代碼以下正則表達式 # -*- coding: utf-8 -* import os import re import shutil REJECT_FILETYPE = 'rar,7z,css,js,jpg,

>>阅读原文<<