整站網頁doc下載wget (轉)

時間 2019-11-30

標籤網頁 doc 下載 wget 欄目 HTML 简体版

原文原文鏈接

wget很厲害，你若是想把某個網站上的一系列的文檔，一般是api文檔扒下來可用下列命令：
wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://網址
爲了讓這個命令行的各選項意義更加明確，它還能夠寫成： wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude-directories /upload/ http://網址
使用wget拷貝網站時的一些選項 下面對其中的各選項簡要說明，作備忘之用。 ‘-e command’ ‘--execute command’ 用來執行額外的.wgetrc命令。就像vim的配置存在.vimrc文件中同樣，wget也用.wgetrc文件來存放它的配置。也就是說在wget執行以前，會先執行.wgetrc文件中的配置命令。一個典型的.wgetrc文件能夠參考： 用戶能夠在不改寫.wgetrc文件的狀況下，用-e選項指定額外的配置命令。若是想要制定多個配置命令，-e command1 -e command2 ... -e commandN便可。這些制定的配置命令，會在.wgetrc中全部命令以後執行，所以會覆蓋.wgetrc中相同的配置項。 這裏robots=off是由於wget默認會根據網站的robots.txt進行操做，若是robots.txt裏是User-agent: * Disallow: /的話，wget是作不了鏡像或者下載目錄的，使用-e robots=off參數便可繞過該限制。 -w seconds --wait=seconds 爲了避免給被拷貝的鏡像網站帶來太大的訪問壓力，頁面請求之間停下等待seconds時間。 -x --force-directories 建立與鏡像網站對應的目錄結構。 http://example/robots.txt這個文件下載下來時，會等到對應的www.example.com/robots.txt。與之相反的是-nd，即--no-directories，
-np --no-parent 只下載給定的目錄下的文件，不下載它的上級目錄中的文件，即便有些頁面中存在上級目錄中文件的鏈接。這個比較必要，若是不限定的話，原本只想下載www.example.com/blog/中的博客文章，最後頗有可能將整個www.example.com都下載下來了。 -p --page-requisites 下載能顯示整個頁面須要的全部資源，包括內嵌的image以及css樣式文件。 -m --mirror 它會打開鏡像相關的選項，好比無限深度的子目錄遞歸下載。 -k --convert-links 這個選項會在整個網站下載完成後修HTML、CSS、Image等資源的連接關係，讓它們都指向下載下來的本地文件，從而適合本地瀏覽。 -t times --tries=times 若是某個資源下載失敗，這個選項指定了重試下載的次數。.wgetrc默認的是20次。咱們在下載網站時能夠將其放小，一則減小下載時間，二則減輕鏡像站點的壓力。 -X /some/dir
--exclude-directories /some/dir 能夠用這個參數指定不須要下載的目錄，若是有多個須要排除的目錄，能夠用逗號隔開，好比 -X /some/dir1;/some/dir2

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。