wget整站抓取、网站抓取功能

wget -r -p -np -k -E http://www.xxx.com 抓取整站

wget -l 1 -p -np -k http://www.xxx.com 抓取第一级

-r 递归抓取
-k 抓取之后修正链接，适合本地浏览

http://blog.sina.com.cn/s/blog_669fb0c3010137bq.html

wget -m -e robots=off -k -E "http://www.abc.net/"
可以将全站下载以本地的当前工作目录，生成可访问、完整的镜像。

解释：

-m //镜像，就是整站抓取
-e robots=off //忽略robots协议，强制、流氓抓取
-k //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存

https://futurestack.cn/cookbook/devops/wgetsite/

原文地址：https://www.cnblogs.com/shengulong/p/8445828.html

时间： 2024-11-07 20:47:10

wget整站抓取、网站抓取功能的相关文章

Web侦察工具HTTrack （爬取整站）

Web侦察工具HTTrack (爬取整站) HTTrack介绍爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机.HTTrack安排原始网站的相关链接结构.只需在浏览器中打开"镜像"网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样.HTTrack也可以更新现有的镜像站点,并恢复中断

使用webpasser抓取某笑话网站整站内容

使用webpasser框架抓取某一笑话网站整站内容.webpasser是一款可配置的爬虫框架,内置页面解析引擎,可快速配置出一个爬虫任务.配置方式将页面解析和数据存储分离,如果目标网站改版,也可以快速修复. 配置说明如下(该例子完整配置见http://git.oschina.net/passer/webpasser): 1.先写总的抓取参数:网页编码是gbk,请求超时时间是5秒,请求失败重试5次,抓取失败后等待时间10秒,设置10个线程抓取,每次抓取后不等待.这里不设置请求头信息.cookie,

几款整站抓取的工具

TeleportUltra Teleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考. WebZip WebZip 把一个网站下载并压缩到一个单独的 ZIP 文件中,可以帮您将某个站台全部或部份之资料以ZIP格式压缩起来,可供你日后快速浏览这个网站.且新

网站爬取-案例二：天猫爬取( 第一卷：首页数据抓取)

说到网站数据的爬取,目前为止我见过最复杂的就是天猫了,现在我想对它进行整站的爬取我们先来看下天猫主页的界面天猫页面很明显是动态页面所以我们需要用selenium模块首先我们抓取下行业列表,留作之后的深度爬取我们来看下结果: 看到商品链接和行业列表的完美展现了吧可是当前页面并没抓取完毕,我们现在看下首页还有什么内容我们顺带抓取下发先并没有我们想要的东西,说明页面没有抓取完毕,熟悉网站制作的同僚们因该知道这样的页面都是用OVERFLOW:hidden的方式来做的布局,所以我们可以利用J

抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

Fizzler（So Easy）关于抓取网站数据，不再困难

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

被惩罚的网站抓取不会减少BGP

被惩罚的网站抓取不会减少BGP, 网站被惩罚是一个非常令人苦恼的事情,得易搜信息网因为网站被惩罚往往伴随着索引量减少,关键词排名下降,流量减少等,自己的成果付之东流,没人愿意看到.很多人认为被搜索引擎惩罚就相当于被贴上了"垃圾"的标签,被牢牢的抓住了,再也翻不了身,搜索引擎也不会再很好的抓取这个网站,事实如此吗? 被惩罚的网站,抓取不会减慢是否谷歌抓取被惩罚的站点频率会更少或更慢?谷歌回应,通常对被惩罚的网站,抓取不会减慢.因为网站被某个算法惩罚后,需要等待谷歌抓取这个网站,提取网站

ajax抓取网站接口图片瀑布流笔记

用php结合ajax来实现去其它网站抓取图片,在自己本地用! ajax代码部分 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>图片瀑布流</title> </head> <style> body{ margin:0; } #u