wget很厲害,你若是想把某個網站上的一系列的文檔,一般是api文檔扒下來可用下列命令:
wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://網址
爲了讓這個命令行的各選項意義更加明確,它還能夠寫成: wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude-directories /upload/ http://網址
使用wget拷貝網站時的一些選項 下面對其中的各選項簡要說明,作備忘之用。 ‘-e command’ ‘--execute command’ 用來執行額外的.wgetrc命令。就像vim的配置存在.vimrc文件中同樣,wget也用.wgetrc文件來存放它的配置。也就是說在wget執行以前,會先執行.wgetrc文件中的配置命令。一個典型的.wgetrc文件能夠參考: 用戶能夠在不改寫.wgetrc文件的狀況下,用-e選項指定額外的配置命令。若是想要制定多個配置命令,-e command1 -e command2 ... -e commandN便可。這些制定的配置命令,會在.wgetrc中全部命令以後執行,所以會覆蓋.wgetrc中相同的配置項。 這裏robots=off是由於wget默認會根據網站的robots.txt進行操做,若是robots.txt裏是User-agent: * Disallow: /的話,wget是作不了鏡像或者下載目錄的,使用-e robots=off參數便可繞過該限制。 -w seconds --wait=seconds 爲了避免給被拷貝的鏡像網站帶來太大的訪問壓力,頁面請求之間停下等待seconds時間。 -x --force-directories 建立與鏡像網站對應的目錄結構。 http://example/robots.txt這個文件下載下來時,會等到對應的www.example.com/robots.txt。與之相反的是-nd,即--no-directories,
-np --no-parent 只下載給定的目錄下的文件,不下載它的上級目錄中的文件,即便有些頁面中存在上級目錄中文件的鏈接。這個比較必要,若是不限定的話,原本只想下載www.example.com/blog/中的博客文章,最後頗有可能將整個www.example.com都下載下來了。 -p --page-requisites 下載能顯示整個頁面須要的全部資源,包括內嵌的image以及css樣式文件。 -m --mirror 它會打開鏡像相關的選項,好比無限深度的子目錄遞歸下載。 -k --convert-links 這個選項會在整個網站下載完成後修HTML、CSS、Image等資源的連接關係,讓它們都指向下載下來的本地文件,從而適合本地瀏覽。 -t times --tries=times 若是某個資源下載失敗,這個選項指定了重試下載的次數。.wgetrc默認的是20次。咱們在下載網站時能夠將其放小,一則減小下載時間,二則減輕鏡像站點的壓力。 -X /some/dir
--exclude-directories /some/dir 能夠用這個參數指定不須要下載的目錄,若是有多個須要排除的目錄,能夠用逗號隔開,好比 -X /some/dir1;/some/dir2