如何使用wget

 

wget下載資源

好比說要下載好的在線資源,能夠用wget命令:css

$ wget -r -p -k -np http://tengine.taobao.org/book/ 
$ wget -r -p -k -np http://light4.github.io/Linux-C/index.html

下載git-pro中文版時,遇到錯誤: Connecting to |216.34.181.97|:80... failed: Connection refused.。多是G F W的做用,所以須要使用代理,只須要設置:html

$ export http_proxy='127.0.0.1:8087' #GAE代理

重試則能夠下載成功,可是編碼錯誤:jquery

zsh➜ $ wget -r -p -k -np http://git-scm.com/book/zh/起步 
--2013-04-08 14:21:43-- http://git-scm.com/book/zh/%E8%B5%B7%E6%AD%A5 
正在鏈接 127.0.0.1:8087... 已鏈接。 
已發出 Proxy 請求,正在等待迴應... 200 
長度: 17487 (17K) [text/html] 
....

加上--restrict-file-names=nocontrol參數就能夠了。git

另外在下載learn.jquery.com完成後,在首頁打開event時,連接轉換爲file:///home/zhaofei/Documents/learn.jquery.com/index.html?page_id=13, 實際上,瀏覽器在載入文件時忽略連接中的查詢字串(也就是?page_id=13),所以打開的仍然是index.html。這時候加上--restrict-file-names=windows,轉換爲本地鏈接時將?轉換爲其餘字符。github

wget 幫助手冊

man wgetwindows

wget是免費的網頁下載工具,支持HTTP、HTTPS、FTP協議,同時還支持http代理。wget支持遞歸抓取頁面,能夠爬取HTML、XHTML、CSS,同時轉換頁面內連接地址,容許在沒網的狀況下瀏覽網站,所以是備份網站的強大工具。 wget遵照Robot Exclusion Standard (/robots.txt)。api

上面各個選項含義:瀏覽器

  • -r(–recursive): 遞歸下載頁面,默認深度爲5
  • -p(–page-requisites): 下載頁面中的全部資源,包括圖片,聲音,css等。
  • -k(–convert-links): 下載完成後,轉換連接地址,方便本地瀏覽。
  • -np(–no-parent): 遞歸下載只往下搜索連接,不會下載父目錄頁面。
  • –restrict-file-names=nocontrol: 設置轉換連接地址時須要轉換的字符集。默認狀況下,wget轉換系統文件名不容許的字符和不可顯示的字符。值能夠爲unix, windows, nocontrol, ascii, lowercase, and uppercase.

Mac 下能夠使用SiteSucker備份網站,SiteSucker簡單易用同時又很強大,setting裏面有許多選項能夠設置,好比不下載指定文件類型等。工具

參考

Nginx 開發從入門到精通
How to Fix wget Connection Refused Error when I’m behind a Proxy
解決wget下載文件名亂碼的一些方法
Escaping query strings with wget –mirror網站

相關文章
相關標籤/搜索