Web侦察工具HTTrack （爬取整站）

HTTrack介绍

爬取整站的网页，用于离线浏览，减少与目标系统交互，HTTrack是一个免费的（GPL，自由软件）和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录，递归地构建所有目录，从服务器获取HTML，图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面，即可从链接到链接浏览网站，就像在线查看网站一样。HTTrack也可以更新现有的镜像站点，并恢复中断的下载。HTTrack完全可配置，并具有集成的帮助系统。

HTTrack使用

1.先创建一个目录，用来保存爬下来的网页和数据

[email protected]:~# mkdir dvwa

2.打开Httrack

[email protected]:~# httrack

3.给项目命名

Enter project name :dvwa

4.保存到哪个目录

Base path (return=/root/websites/) :/root/dvwa

5.网站的url

Enter URLs (separated by commas or blank spaces) :http://192.168.14.157/dvwa/

Action:

(enter)

1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)
0 Quit
:2

//1：直接镜像站点
//2：用向导完成镜像
//3：只get某种特定的文件
//4：镜像在这个url下所有的链接
//5：测试在这个url下的链接
//0：退出

7.是否使用代理

8.你可以定义一些字符，用来爬特定类型的数据，我们全部类型数据都爬得话，设置*

9.设置更多选项，使用help可以看到更多选项，我们默认，直接Enter

10.开始爬站

11.查看结果

原文地址：https://www.cnblogs.com/-wenli/p/9911881.html

时间： 2024-08-27 05:32:04

Web侦察工具HTTrack （爬取整站）

Web侦察工具HTTrack （爬取整站）

HTTrack介绍

HTTrack使用

Web侦察工具HTTrack （爬取整站）的相关文章

使用wget命令爬取整站

python爬取B站千万级数据，发现了这些热门UP主的秘密！

WEB页面，WEB环境版本，数据库，整站备份脚本

web scraper——简单的爬取数据【二】

零基础如何学好python爬虫？之python爬取B站小视频

一个简单的爬取b站up下所有视频的所有评论信息的爬虫

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

Python 爬取 B 站，宋智孝李光洙哪个更受宠？

python 爬取B站视频弹幕信息