0x00 前言
我們?cè)趯W(xué)習(xí)前端的時(shí)候,總是會(huì)想著去學(xué)習(xí)其他人網(wǎng)站是如何制作的比較好的源碼下載網(wǎng)站,或者我們遇到一些比較有用的知識(shí)點(diǎn)的時(shí)候,我們可能會(huì)選擇通過(guò) Ctrl+C/Ctrl+V 去扒下內(nèi)容,然而我并非是鼓勵(lì)這種扒網(wǎng)站的行為,不過(guò)只要是開(kāi)源的,不用于商業(yè)用途比較好的源碼下載網(wǎng)站,我覺(jué)得大家都可以相互借鑒一下的啦,畢竟重復(fù)造輪子的事情就是在浪費(fèi)時(shí)間。而通過(guò) Ctrl+C/Ctrl+V 這種方式過(guò)于麻煩,并且現(xiàn)在的圖片基本上都有防盜鏈了,或者路徑由圖床改成了本地的相對(duì)路徑,單純的復(fù)制粘貼很難把網(wǎng)站的相關(guān)內(nèi)容扒的干凈,于是我們有了如下的思考:如何才能將一個(gè)網(wǎng)站的內(nèi)容完整的 clone 下來(lái)呢?
初學(xué)的時(shí)候,我們通過(guò) view-: 這種方式查看網(wǎng)頁(yè)的源代碼,新建一個(gè) index.html 文件,然后將內(nèi)容復(fù)制粘貼到 index.html 內(nèi)容中,或者直接 wget 下來(lái)也是可以的。但就像我上面說(shuō)的那樣,沒(méi)有辦法完整的拷貝網(wǎng)頁(yè)上的全部?jī)?nèi)容。隨著學(xué)習(xí)的深入,了解到了 爬蟲(chóng)的時(shí)候,有過(guò)這種實(shí)例,但是在實(shí)現(xiàn)效果上并不是那么友好。
隨著學(xué)習(xí)的進(jìn)一步深入,有了專門針對(duì)網(wǎng)站克隆的軟件,如 、 等等,據(jù)說(shuō)挺好用的,咱也沒(méi)試過(guò),咱也不確定啊(多年不用 )。今天我給大家介紹一款開(kāi)源且超好用的網(wǎng)站克隆機(jī) 。
0x01 什么是 ?
是一個(gè)免費(fèi)并易于使用的線下瀏覽器工具,全稱是 for ,它能夠讓你從互聯(lián)網(wǎng)上下載指定的網(wǎng)站進(jìn)行線下瀏覽(離線瀏覽),也可以用來(lái)收集信息(甚至有網(wǎng)站使用隱藏的密碼文件),一些仿真度極高的偽網(wǎng)站(為了騙取用戶密碼),也是使用類似工具做的。瀏覽線下站點(diǎn)和線上并沒(méi)有什么不同。
同樣可以進(jìn)行線下線上站點(diǎn)同步,支持?jǐn)帱c(diǎn)續(xù)傳。 是一個(gè)可全面配置并包括全面的幫助系統(tǒng)的工具。對(duì)于傳統(tǒng)的像存在 .txt 的網(wǎng)站,如果程序運(yùn)行的時(shí)候不做限制,在默認(rèn)的環(huán)境下程序不會(huì)把網(wǎng)站鏡像,簡(jiǎn)單來(lái)說(shuō) 跟隨基本的 或者 、flash 中的鏈接,對(duì)于復(fù)雜的鏈接(使用函數(shù)和表達(dá)式創(chuàng)建的鏈接)或者服務(wù)器端的 則不能鏡像。一般不用挖的太深就能獲取目標(biāo)信息比如網(wǎng)站的物理地址,電話號(hào)碼,電子郵箱地址,運(yùn)營(yíng)時(shí)間,商業(yè)關(guān)系,員工的姓名,與社會(huì)關(guān)系,以及公開(kāi)的一些花絮。做滲透測(cè)試時(shí)新聞其實(shí)也很重要,公司時(shí)常會(huì)公開(kāi)一些自己感到驕傲的事情,這些報(bào)到中可能會(huì)泄露有用的信息,企業(yè)兼并服務(wù)器運(yùn)轉(zhuǎn)的情況等等。
用 可以將一個(gè)網(wǎng)站拷貝下來(lái),以此進(jìn)行下線的探測(cè)發(fā)現(xiàn),以此減少對(duì)目標(biāo)網(wǎng)站的直接交互。 的使用很簡(jiǎn)單,只需要根據(jù)其向?qū)О床襟E進(jìn)行就好了。
已經(jīng)被預(yù)安裝在以下 Linux 系統(tǒng)中:
如沒(méi)有可以自行參考以下的安裝方式進(jìn)行下載安裝。
0x02 的安裝和使用
支持 、Linux 和 MacOS 等主流的操作系統(tǒng),且針對(duì) 而言, 有可視化界面的支持,效果如下:
最新版的 可以通過(guò)以下方式進(jìn)行下載使用。
下安裝:
通過(guò) , 下載對(duì)應(yīng)的版本即可。
Linux 下安裝:
# Debian/Ubuntu下安裝
sudo apt install httrack
# CentOS/Fedora下安裝
sudo yum install httrack
# Gentoo下安裝
sudo emerge httrack
Mac OSX 下安裝:
sudo port install httrack
# 或者
brew install httrack
直接通過(guò)源碼編譯下安裝:
git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install
具體參考:
常用的參數(shù)選項(xiàng)可以通過(guò) --help 查看。
0x03 克隆網(wǎng)站站點(diǎn)演示環(huán)境準(zhǔn)備
下面我以某一測(cè)試站點(diǎn) 為例,來(lái)演示其操作過(guò)程。
克隆過(guò)程1、 進(jìn)入操作界面
在安裝好 的 Mac OSX 10.11 的系統(tǒng)中,打開(kāi) shell 終端,直接輸入 即可。
2、輸入必要的信息
接下來(lái)我們要填入如下相關(guān)信息:
Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack --help
# 1. 輸入待生成的項(xiàng)目名稱
Enter project name :progit
# 2. 輸入待保存的項(xiàng)目所在的路徑
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
# 3. 輸入需要克隆的網(wǎng)站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/
Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
:
# 4. 沒(méi)有特別要求直接回車即可
Proxy (return=none) :
You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
# 5. 沒(méi)有特別要求直接回車即可
Wildcards (return=none) :
You can define additional options, such as recurse level (-r
), separated by blank spaces
To see the option list, type help
# 6. 沒(méi)有特別要求直接回車即可
Additional options (return=none) :
---> Wizard command line: httrack https://progit.bootcss.com/ -O "/Users/apple/Desktop/progit" -%v
Ready to launch the mirror? (Y/n) :Y
Mirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://progit.bootcss.com/ with the wizard help..
Done.
Thanks for using HTTrack!
*
3、完成克隆
克隆效果如下:
克隆下來(lái)的網(wǎng)頁(yè)幾乎與原網(wǎng)站毫無(wú)差別,效果超級(jí)的 nice。
也可以通過(guò)查看 help 選項(xiàng)采用不同的選項(xiàng)方式進(jìn)行克隆。
鏡像下來(lái)的網(wǎng)頁(yè)可以在離線的方式,進(jìn)行滲透分析,傳統(tǒng)的在網(wǎng)站主機(jī)上瀏覽網(wǎng)頁(yè),你瀏覽的和摸索的時(shí)間越多,活動(dòng)可能被網(wǎng)站跟蹤,哪怕是隨意的瀏覽網(wǎng)站,也會(huì)被記錄蹤跡,只要屬于目標(biāo)資源,任何時(shí)候與之直接交互,都可能留下數(shù)字痕跡。
但是,在沒(méi)有進(jìn)行授權(quán)的時(shí)候千萬(wàn)不要使用該軟件進(jìn)行鏡像網(wǎng)站上的網(wǎng)頁(yè),像部署了安全狗或者其他防火墻的專業(yè)軟件可能會(huì)記錄這種行為為攻擊性質(zhì)。