wget 指令學習之遞歸抓取文檔技巧

在線上閱讀文檔的時候,有沒有想將它抓取到本地,以備沒有網的時候閱讀只需?html

先上指令:linux

$ wget --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36" -p -np -k -r --wait=1 http://www.tornadoweb.org/en/stable/

你會看到以下的頁面:web

  

過段時間,就會抓取完成,並在本地生成了一個相關聯的目錄。緩存

這個命令就是 wget。它是開發者在Linux下面很是喜歡使用的下載指令。常常,咱們會看到一些技術文檔在指導你下載安裝包的時候,也會用到,好比: wget xxx.tar.gz 之類的。bash

咱們能夠經過 man wget  wget -h 來查閱 wget 的參數。下面挑出幾個經常使用的參數介紹下。服務器

HTTP 相關的:
--http-user=USER        設置 http 用戶名爲 USER。
--http-password=PASS    設置 http 密碼爲 PASS。
--no-cache              不在服務器上緩存數據。
  -U,  --user-agent=AGENT      標識爲 AGENT 而不是 Wget/VERSION。
       --no-http-keep-alive    禁用 HTTP keep-alive (永久鏈接)。
       --no-cookies            不使用 cookies。
       --load-cookies=FILE     會話開始前從 FILE 中載入 cookies。
       --save-cookies=FILE     會話結束後保存 cookies 至 FILE。
       --keep-session-cookies  載入並保存會話 (非永久) cookies。
       --post-data=STRING      使用 POST 方式;把 STRING 做爲數據發送。
       --post-file=FILE        使用 POST 方式;發送 FILE 內容。
       --content-disposition   當選中本地文件名時
                               容許 Content-Disposition 頭部 (尚在實驗)。
       --auth-no-challenge     發送不含服務器詢問的首次等待
                               的基本 HTTP 驗證信息。
下載相關的:
  -w,  --wait=SECONDS            等待間隔爲 SECONDS 秒。
       --waitretry=SECONDS       在獲取文件的重試期間等待 1..SECONDS 秒。
       --random-wait             獲取多個文件時,每次隨機等待間隔
                                 0.5*WAIT...1.5*WAIT 秒。
-O --output-document=FILE    將文檔寫入 FILE。

遞歸下載:
-r,  --recursive          指定遞歸下載。
-p,  --page-requisites    下載全部用於顯示 HTML 頁面的圖片之類的元素。
-k,  --convert-links      讓下載獲得的 HTML 或 CSS 中的連接指向本地文件。
-np, --no-parent          不追溯至父目錄。
原文網址 http://www.cnblogs.com/scharfsinnig/p/6707859.html 

參考文檔:
http://linux.51yip.com/search/wget
相關文章
相關標籤/搜索