整站网页doc下载wget (转)

wget很厉害,你如果想把某个网站上的一系列的文档,通常是api文档扒下来可用下列命令:wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://网址
为了让这个命令行的各选项意义更加明确,它还可以写成:
wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude /upload/ http://网址
使用wget拷贝网站时的一些选项
下面对其中的各选项简要说明,做备忘之用。
‘-e command’
‘--execute command’
用来执行额外的.wgetrc命令。就像vim的配置存在.vimrc文件中一样,wget也用.wgetrc文件来存放它的配置。也就是说在wget执行之前,会先执行.wgetrc文件中的配置命令。一个典型的.wgetrc文件可以参考:
用户可以在不改写.wgetrc文件的情况下,用-e选项指定额外的配置命令。如果想要制定多个配置命令,-e command1 -e command2 ... -e commandN即可。这些制定的配置命令,会在.wgetrc中所有命令之后执行,因此会覆盖.wgetrc中相同的配置项。
这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,wget是做不了镜像或者下载目录的,使用-e robots=off参数即可绕过该限制。
-w seconds
--wait=seconds
为了不给被拷贝的镜像网站带来太大的访问压力,页面请求之间停下等待seconds时间。
-x
--force-directories
创建与镜像网站对应的目录结构。 http://example/robots.txt这个文件下载下来时,会等到对应的www.example.com/robots.txt。与之相反的是-nd,即--no-directories,
-np
--no-parent
只下载给定的目录下的文件,不下载它的上级目录中的文件,即使有些页面中存在上级目录中文件的连接。这个比较必要,如果不限定的话,本来只想下载www.example.com/blog/中的博客文章,最后很有可能将整个www.example.com都下载下来了。
-p
--page-requisites
下载能显示整个页面需要的所有资源,包括内嵌的image以及css样式文件。
-m
--mirror
它会打开镜像相关的选项,比如无限深度的子目录递归下载。
-k
--convert-links
这个选项会在整个网站下载完成后修HTML、CSS、Image等资源的链接关系,让它们都指向下载下来的本地文件,从而适合本地浏览。
-t times
--tries=times
如果某个资源下载失败,这个选项指定了重试下载的次数。.wgetrc默认的是20次。我们在下载网站时可以将其放小,一则减少下载时间,二则减轻镜像站点的压力。
-X /some/dir
--exclude /some/dir
可以用这个参数指定不需要下载的目录,如果有多个需要排除的目录,可以用逗号隔开,比如
-X /some/dir1;/some/dir2
时间: 2024-10-12 16:54:03

整站网页doc下载wget (转)的相关文章

WebCollector下载整站页面(JAVA网络爬虫)

很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放. 下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码. 代码中的抽取器可以作为一个插件复用. WebCollector的jar包可到官网下载:WebCollector官网.进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包. import cn.edu.hfut.dmic.webcollector.crawler.MultiExt

Linux系统下利用wget命令把整站下载做镜像网站

Linux系统下利用wget命令把整站下载做镜像网站 2011-05-28 18:13:01 | 1次阅读 | 评论:0 条 | itokit  在linux下完整的用wget命令整站采集网站做镜像 的命令是及无视网站根目录下的robots.txt限制.并且可以模拟一个正常浏览者的信息下载该网站. C/C++ Code复制内容到剪贴板 wget -m -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.

整站(网页)下载工具

有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. TeleportUltra Teleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想 要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考. WebZip Web

5款整站下载器

本文转载:http://www.cnblogs.com/fumj/archive/2012/05/30/2526062.html 有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. TeleportUltra Teleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自

5款整站下载工具

有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. TeleportUltra Teleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象,作为创建你自己的网站的参考. WebZip WebZ

整站下载器

超级网站整站对比其他各类网站下载工具,找到适合你的网站下载工具! 有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. 1. 超级网站整站下载器 超级网站整站下载器破解版现在采用了全新的挖掘引擎,获取内容更精准,更人性化,分析下载素材文件,实现模板下载的软件,可以帮助用户快速的下载动态网站数据,静态页面.cms模板.源码.独的mysql.mssql数据库文件.后台.百宝箱.关键字工具.seo流量精灵.网页编

wget整站抓取、网站抓取功能

wget -r   -p -np -k -E  http://www.xxx.com 抓取整站 wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级 -r 递归抓取-k 抓取之后修正链接,适合本地浏览 http://blog.sina.com.cn/s/blog_669fb0c3010137bq.html wget -m -e robots=off -k -E "http://www.abc.net/"可以将全站下载以本地的当前工作目录,

应该使用什么样的整站下载器呢?

整站下载工具,顾名思义就是可以让你快速下载动态网站数据.静态页面.cms模板.源码.独的mysql.mssql数据库文件等,整站下载器不仅仅是离线浏览某个网页,它可以从Internet的任何地方抓回你想要的任何文件,主要是用来快速搭建网站.深层分析网站.网站克隆等,下面就推荐几个这一方面比较专业的几个工具给大家参考使用.每个工具的特点都不一样,按照自己的需求选择吧. IIS7整站下载器是一款快捷实用的极速下载软件,能够完整下载目标网站的所有文件,主要用于快速搭建网站.深层分析网站.网站克隆等用途

仿hao123网址导航源码HTML整站下载

仿hao123网址导航源码HTML整站下载 功能分类:导航            支持平台:其他        运行环境:其他 开发语言:Javascript   开发工具:其他        源码大小:3.24MB 下载地址:http://sina.lt/z4V 源码简介 经典实用的风格,集时间日期.天气预报.邮箱登陆.搜索引擎.名站.酷站.实用工具.分类目录等常用模板,布局合理,版面简洁,文字清晰,让浏览者一步直达目标网站. 源码运行截图