一款開源且超好用的網站克隆機 HTTrack

0x00 前言

咱們在學習前端的時候,老是會想着去學習其餘人網站是如何製做的,或者咱們遇到一些比較有用的知識點的時候,咱們可能會選擇經過 Ctrl + C / Ctrl + V 去扒下內容,然而我並不是是鼓勵這種扒網站的行爲,不過只要是開源的,不用於商業用途,我以爲你們均可以相互借鑑一下的啦,畢竟重複造輪子的事情就是在浪費時間。而經過 Ctrl + C / Ctrl + V 這種方式過於麻煩,而且如今的圖片基本上都有防盜鏈了,或者路徑由圖牀改爲了本地的相對路徑,單純的複製粘貼很難把網站的相關內容扒的乾淨,因而咱們有了以下的思考:如何才能將一個網站的內容完整的 clone 下來呢?css

初學的時候,咱們經過 view-source:https://xxx.xxx.xxx 這種方式查看網頁的源代碼,新建一個 index.html 文件,而後將內容複製粘貼到 index.html 內容中,或者直接 wget 下來也是能夠的。但就像我上面說的那樣,沒有辦法完整的拷貝網頁上的所有內容。隨着學習的深刻,瞭解到了 python 爬蟲的時候,有過這種實例,可是在實現效果上並非那麼友好。html

隨着學習的進一步深刻,有了專門針對網站克隆的軟件,如 WebZipawwwb.com 等等,聽說挺好用的,咱也沒試過,咱也不肯定啊(多年不用 Windows )。今天我給你們介紹一款開源且超好用的網站克隆機 httrack前端

0x01 什麼是 HTTrack?

HTTrack 是一個免費並易於使用的線下瀏覽器工具,全稱是 HTTrack Website Copier for Windows,它可以讓你從互聯網上下載指定的網站進行線下瀏覽(離線瀏覽),也能夠用來收集信息(甚至有網站使用隱藏的密碼文件),一些仿真度極高的僞網站(爲了騙取用戶密碼),也是使用相似工具作的。瀏覽線下站點和線上並無什麼不一樣。python

HTTrack 一樣能夠進行線下線上站點同步,支持斷點續傳。HTTrack 是一個可全面配置幷包括全面的幫助系統的工具。對於傳統的像存在 Robots.txt 的網站,若是程序運行的時候不作限制,在默認的環境下程序不會把網站鏡像,簡單來講 HTTPrack 跟隨基本的 JavaScript 或者 APPLet、flash 中的連接,對於複雜的連接(使用函數和表達式建立的連接)或者服務器端的 ImageMap 則不能鏡像。通常不用挖的太深就能獲取目標信息好比網站的物理地址,電話號碼,電子郵箱地址,運營時間,商業關係,員工的姓名,與社會關係,以及公開的一些花絮。作滲透測試時新聞其實也很重要,公司時常會公開一些本身感到驕傲的事情,這些報到中可能會泄露有用的信息,企業兼併服務器運轉的狀況等等。linux

用 Httrack 能夠將一個網站拷貝下來,以此進行下線的探測發現,以此減小對目標網站的直接交互。Httrack 的使用很簡單,只須要根據其嚮導按步驟進行就行了。git

HTTrack 已經被預安裝在如下 Linux 系統中:github

如沒有能夠自行參考如下的安裝方式進行下載安裝。web

0x02 HTTrack 的安裝和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操做系統,且針對 Windows 而言,HTTrack 有可視化界面的支持,效果以下:shell

welcome_to_httrack

最新版的 HTTrack 能夠經過如下方式進行下載使用。windows

Windows 下安裝:

經過 http://www.httrack.com/page/2/en/index.html,Download 下載對應的版本便可。

Linux 下安裝:

# Debian/Ubuntu下安裝
sudo apt install httrack
# CentOS/Fedora下安裝
sudo yum install httrack
# Gentoo下安裝
sudo emerge httrack

Mac OSX 下安裝:

sudo port install httrack
# 或者
brew install httrack

直接經過源碼編譯下安裝:

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install

具體參考:http://www.httrack.com/page/2/en/index.html

經常使用的參數選項能夠經過 httrack --help 查看。

0x03 克隆網站站點演示

環境準備

  • Mac OSX 10.11
  • httrack 工具

下面我以某一測試站點 https://progit.bootcss.com/ 爲例,來演示其操做過程。

克隆過程

一、httrack 進入操做界面

在安裝好 httrack 的 Mac OSX 10.11 的系統中,打開 shell 終端,直接輸入 httrack 便可。

二、輸入必要的信息

接下來咱們要填入以下相關信息:

Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help
# 1. 輸入待生成的項目名稱
Enter project name :progit
# 2. 輸入待保存的項目所在的路徑
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
# 3. 輸入須要克隆的網站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/

Action:
(enter) 1   Mirror Web Site(s)
    2   Mirror Web Site(s) with Wizard
    3   Just Get Files Indicated
    4   Mirror ALL links in URLs (Multiple Mirror)
    5   Test Links In URLs (Bookmark Test)
    0   Quit
:
# 4. 沒有特別要求直接回車便可
Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
# 5. 沒有特別要求直接回車便可
Wildcards (return=none) :

You can define additional options, such as recurse level (-r<number>), separated by blank spaces
To see the option list, type help
# 6. 沒有特別要求直接回車便可
Additional options (return=none) :

---> Wizard command line: httrack https://progit.bootcss.com/  -O "/Users/apple/Desktop/progit"  -%v

Ready to launch the mirror? (Y/n) :Y

Mirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://progit.bootcss.com/ with the wizard help..
Done.
Thanks for using HTTrack!
*
三、完成克隆

克隆效果以下:

httrack

clone

克隆下來的網頁幾乎與原網站毫無差異,效果超級的 nice。

也能夠經過查看 help 選項採用不一樣的選項方式進行克隆。

鏡像下來的網頁能夠在離線的方式,進行滲透分析,傳統的在網站主機上瀏覽網頁,你瀏覽的和摸索的時間越多,活動可能被網站跟蹤,哪怕是隨意的瀏覽網站,也會被記錄蹤影,只要屬於目標資源,任什麼時候候與之直接交互,均可能留下數字痕跡。

可是,在沒有進行受權的時候千萬不要使用該軟件進行鏡像網站上的網頁,像部署了安全狗或者其餘防火牆的專業軟件可能會記錄這種行爲爲攻擊性質。

相關文章
相關標籤/搜索