剑走偏锋，robots.txt快速抓取网站的小窍门

在我抓取网站遇到瓶颈，想剑走偏锋去解决时，常常会先去看下该网站的robots.txt文件，有时会给你打开另一扇抓取之门。

写爬虫有很多苦恼的事情，比如：

1.访问频次太高被限制；

2.如何大量发现该网站的URL；

3.如何抓取一个网站新产生的URL，等等；

这些问题都困扰着爬虫选手，如果有大量离散IP和账号，这些都不是问题，但是绝大部分公司都不具备这个条件的。

我们在工作中写的爬虫大多是一次性和临时性的任务，需要你快速完成工作就好，当遇到上面情况，试着看下robots.txt文件。

举个栗子：

老板给你布置一个任务，把豆瓣每天新产生的影评，书评，小组帖子，同城帖子，个人日志抓取下来。

初想一下，这任务得有多大，豆瓣有1.6亿注册用户，光是抓取个人日志这一项任务，每个人的主页你至少每天要访问一次。

这每天就得访问1.6亿次，小组/同城帖子等那些还没算在内。

设计一个常规爬虫，靠着那几十个IP是完不成任务的。

初窥robots.txt

当老板给你了上面的任务，靠着你这一两杆枪，你怎么完成，别给老板讲技术，他不懂，他只想要结果。

我们来看下豆瓣的robots.txt

https://www.douban.com/robots.txt

看图片上面红框处，是两个sitemap文件

打开sitemap_updated_index文件看一下：

里面是一个个压缩文件，文件里面是豆瓣头一天新产生的影评，书评，帖子等等，感兴趣的可以去打开压缩文件看一下。

也就是说每天你只需要访问这个robots.txt里的sitemap文件就可以知道有哪些新产生的URL。

不用去遍历豆瓣网站上那几亿个链接，极大节约了你的抓取时间和爬虫设计复杂度，也降低了豆瓣网站的带宽消耗，这是双赢啊，哈哈。

上面通过robots.txt的sitemap文件找到了抓取一个网站新产生URL的偏方。沿着该思路也能解决发现网站大量URL的问题。

再举个栗子：

老板又给你一个任务，老板说上次抓豆瓣你说要大量IP才能搞定抓豆瓣每天新产生的帖子，这次给你1000个IP把天眼查上的几千万家企业工商信息抓取下来。

看着这么多IP你正留着口水，但是分析网站后发现这类网站的抓取入口很少(抓取入口是指频道页，聚合了很多链接的那种页面)。

很容易就把储备的URL抓完了，干看着这么多IP工作不饱满。

如果一次性能找到这个网站几万乃至几十万个URL放进待抓队列里，就可以让这么多IP工作饱满起来，不会偷懒了。

我们来看他的robots.txt文件：

https://www.tianyancha.com/robots.txt

打开红框处的sitemap，里面有3万个公司的URL，上图是1月3号生成的，那个URL是根据年月日生成的，你把URL改成1月2号，又能看到2号的sitemap里的几万个公司URL，这样就能发现十几万个种子URL供你抓取了。

PS：上面的sitemap其实也能解决抓取天眼查最近更新的，新产生URL的问题。

小小的一个取巧，既降低了爬虫设计的复杂度，又降低了对方的带宽消耗。

这在工作中非常适用，工作中不会在意你用的框架多好，只在意你做事的快慢和好坏。

善于看robots.txt文件你会发现一些别有洞天的东西。

如果你依然在编程的世界里迷茫，不知道自己的未来规划，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！交流经验！
自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、人工智能、数据挖掘等，零基础到项目实战的资料都有整理。
送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，这里是python学习者聚集地

点击：python技术分享

原文地址：https://blog.51cto.com/14304496/2386227

时间： 2024-08-12 11:16:02

剑走偏锋，robots.txt快速抓取网站的小窍门的相关文章

python抓取网站URL小工具

1.安装Python requests模块(通过pip): 环境搭建好了! 2.测试一下抓取URL的过程: 抓取出来的URL有JavaScript代码,正则上还有待更加完善,有兴趣的可以研究下~! 工具源代码: #coding:utf-8 import sys import re import requests #获取输入URL,并获取网页text input = raw_input("please input URL format like this(http://www.baidu.com)

快速抓取某个网站内容方法

是不是有人相抓取网页上面的内容,放到别的网站上面.下面我给大家介绍一种最常用的方法: 用HtmlAgilityPack 组件. public String GetHtml() { string url = "http://t.news.fx168.com/"; HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest; using (HttpWebResponse response = request.G

蜘蛛抓取网站的时候，抓取了不存在的页面

SEOer需要经常查看网站的服务器日志,从而掌握蜘蛛爬取了我们网站的什么地方,哪个页面.但是有时候却发现蜘蛛爬取了一些我们网站并不存在的页面,今天SEO教程就讲解下为什么百度蜘蛛会爬取我们网站没有的页面. 1.蜘蛛是怎么发现我们网站的链接的? 我们都知道,蜘蛛是沿着链接爬来爬去的,他会自动提取网站中所有的链接,保存入库,然后进行爬取,这也就是为什么我们觉得网站的收录少了或者刚发布的文章没有被收录,我们就会说"引蜘蛛"了,其实引蜘蛛就是发外链了,当这条链接呗蜘蛛发现之后,他就会进行爬取

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

Wireshark学习笔记——如何快速抓取HTTP数据包

0.前言在火狐浏览器和谷歌浏览器中可以非常方便的调试network(抓取HTTP数据包),但是在360系列浏览器(兼容模式或IE标准模式)中抓取HTTP数据包就不那么那么方便了.虽然也可使用HttpAnalyzer等工,但是毕竟都是收费软件.只需通过合适的过滤和操作,Wireshark也可抓取HTTP请求和响应.下面便说明具体操作. 假设在8080端口运行一个HTTP服务器,本例中使用Python Flask运行一个HTTP服务并侦听8080端口,实现一个简单的加法运算,网页中通过ajax提交

抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

Fizzler（So Easy）关于抓取网站数据，不再困难

Jumony快速抓取网页 --- Jumony使用笔记--icode

作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.cnblogs.com 时间:2014年6月26日 19:25:02 刚刚在博客园看到一篇博文<使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)> ,感觉不错,作者写的也挺好的,然后在看了园子里的朋友的评论后,我知道了有一个更牛x的工具——Jumony .这个工具用起来可谓称之为简单.高效. 特此记录和分享,J

爬虫，可用于增加访问量和抓取网站全页内容

爬虫,可用于增加访问量和抓取网站全页内容爬虫道德规范: 1.不让爬的咱不爬 2.让爬的咱不能一直爬使用爬虫提高文章访客说明: 1.本爬虫使用代理IP 2.伪装浏览器 3.粘贴地址即可使用 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py 5.下载原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py # codin