Wget/httrack 命令爬取整站資源

wget 是一個從網絡上自動下載文件的自由工具，支持經過 HTTP、HTTPS、FTP 三個最多見的 TCP/IP協議下載，並能夠使用 HTTP 代理。"wget" 這個名稱來源於「World Wide Web」與「get」的結合。docker

[root@localhost ~]# yum install -y wget [root@localhost ~]# wget -c -r -npH -k -nv http://www.baidu.com
 參數說明 -c：斷點續傳 -r：遞歸下載 -np：遞歸下載時不搜索上層目錄 -nv：顯示簡要信息 -nd：遞歸下載時不建立一層一層的目錄,把全部文件下載當前文件夾中 -p：下載網頁所須要的全部文件(圖片,樣式,js文件等) -H：當遞歸時是轉到外部主機下載圖片或連接 -k：將絕對連接轉換爲相對連接,這樣就能夠在本地脫機瀏覽網頁了 -L:     只擴展相對鏈接，該參數對於抓取指定站點頗有用，能夠避免向宿主主機

wget.exe -d -S -O - http://lyshark.com # 顯示請求和響應的headers
wget -c -r -npH -k -nv http://lyshark.com # 爬取整個頁面
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10"api

HTTrack是一個免費並易於使用的線下瀏覽器工具，全稱是HTTrack Website Copier for Windows，它可以讓你從互聯網上下載整個網站進行線下瀏覽。瀏覽器

[root@localhost ~]# yum install -y httrack [root@localhost ~]# httrack "https://www.baidu.com" -o "/root" "+*.https://www.baidu.com*" -v

頁面渲染工具網絡

#安裝所須要的包： yum install -y yum-utils device-mapper-persistent-data lvm2 docker pull scrapinghub/splash docker run -d -p 8050:8050 scrapinghub/splash #經過瀏覽器訪問8050端口驗證安裝是否成功