在線上閱讀文檔的時候,有沒有想將它抓取到本地,以備沒有網的時候閱讀只需?html
先上指令:linux
$ wget --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36" -p -np -k -r --wait=1 http://www.tornadoweb.org/en/stable/
你會看到以下的頁面:web
過段時間,就會抓取完成,並在本地生成了一個相關聯的目錄。緩存
這個命令就是 wget。它是開發者在Linux下面很是喜歡使用的下載指令。常常,咱們會看到一些技術文檔在指導你下載安裝包的時候,也會用到,好比: wget xxx.tar.gz 之類的。bash
咱們能夠經過 man wget 或 wget -h 來查閱 wget 的參數。下面挑出幾個經常使用的參數介紹下。服務器
HTTP 相關的:
--http-user=USER 設置 http 用戶名爲 USER。
--http-password=PASS 設置 http 密碼爲 PASS。
--no-cache 不在服務器上緩存數據。
-U, --user-agent=AGENT 標識爲 AGENT 而不是 Wget/VERSION。
--no-http-keep-alive 禁用 HTTP keep-alive (永久鏈接)。
--no-cookies 不使用 cookies。
--load-cookies=FILE 會話開始前從 FILE 中載入 cookies。
--save-cookies=FILE 會話結束後保存 cookies 至 FILE。
--keep-session-cookies 載入並保存會話 (非永久) cookies。
--post-data=STRING 使用 POST 方式;把 STRING 做爲數據發送。
--post-file=FILE 使用 POST 方式;發送 FILE 內容。
--content-disposition 當選中本地文件名時
容許 Content-Disposition 頭部 (尚在實驗)。
--auth-no-challenge 發送不含服務器詢問的首次等待
的基本 HTTP 驗證信息。
下載相關的:
-w, --wait=SECONDS 等待間隔爲 SECONDS 秒。
--waitretry=SECONDS 在獲取文件的重試期間等待 1..SECONDS 秒。
--random-wait 獲取多個文件時,每次隨機等待間隔
0.5*WAIT...1.5*WAIT 秒。
-O --output-document=FILE 將文檔寫入 FILE。
遞歸下載:
-r, --recursive 指定遞歸下載。
-p, --page-requisites 下載全部用於顯示 HTML 頁面的圖片之類的元素。
-k, --convert-links 讓下載獲得的 HTML 或 CSS 中的連接指向本地文件。
-np, --no-parent 不追溯至父目錄。
原文網址 http://www.cnblogs.com/scharfsinnig/p/6707859.html
參考文檔:
http://linux.51yip.com/search/wget