爬虫基础 - Robots协议

Robots协议

指定一个robots.txt文件,告诉爬虫引擎怎么爬取

https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  *
Disallow:  /

其他爬虫,不允许爬取

User-Agent: *

DisalloW: /

这是一个君子协定,‘爬亦有道‘

这个协议为了让搜索引擎更有效搜索自己的内容

原文地址：https://www.cnblogs.com/zhaijihai/p/10300750.html

时间： 2024-08-30 01:14:00

爬虫基础 - Robots协议的相关文章

爬虫基础---HTTP协议理解、网页的基础知识、爬虫的基本原理

一.HTTP协议的理解 URL和URI 在学习HTTP之前我们需要了解一下URL.URI(精确的说明某资源的位置以及如果去访问它) URL:Universal Resource Locator 统一资源定位符,描述了一台特定服务器上某资源的特定位置. URI :Uniform Resource Identifier 统一资源标识符,URI有两种表现形式URL和URN. HTTP和HTTPS 我们经常会在URL的首部会看到http或者https,这个就是访问资源需要的协议类型,除了http和htt

python爬虫基础01-HTTP协议

深入浅出了解HTTP协议 HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议.目前使用最普遍的一个版本是HTTP 1.1. HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议.它可以使浏览器更加高效,使网络传输减少.它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等. HTTP协议简介 HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端-服务

查看搜索引擎的robots协议及其他爬虫基础-2

1.网络爬虫:抓取网络数据的程序用python程序模仿人去访问网站,逼真度越真越好可以用来爬取有价值的数据 2.企业获取数据的方式 1 自有数据比如自家职员信息表格等 2 第三方数据平台购买数据堂.贵阳大数据交易所 3 爬虫爬取数据 3.其他语言也可以做爬虫如PHP,JAVA,C.C++ 4.爬虫分类 1.通用网络爬虫搜索引擎使用,需要遵守 robots协议. 如何查看一个搜索引擎的robots协议? 输入网站/robots.txt,如:www.baidu.com/robots.txt

Python3网络爬虫实战-23、使用Urllib：分析Robots协议

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简单了解一下它的用法. 1. Robots协议 Robots 协议也被称作爬虫协议.机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取.它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下. 当搜索爬虫访问一个站点时,它首先会检查下这个站点根目录下是否存在 robots.tx

Python 爬虫-Robots协议

2017-07-25 21:08:16 一.网络爬虫的规模二.网络爬虫的限制 ? 来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问? 发布公告:Robots协议告知所有爬虫网站的爬取策略,要求爬虫遵守三.Robots 协议作用:网站告知网络爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots.txt文件如果网站不提供Robots协议则表示该网站允许任意爬虫爬取任意次数. 类人类行为原则上可以不遵守Rob

python3 爬虫5--分析Robots协议

1Robots协议 Robots协议告诉了搜索引擎和爬虫那些页面可以抓取,那些不可以,通常是存放在robots.txt文件里面,位于网站的根目录下 robots.txt中内容的示范: User-agent:* //表示了搜索爬虫的名称,*表示对任何爬虫都有效 Disallow:/ //表示了不允许抓取的目录,/表示不允许抓取所有目录,没有写就代表允许抓取所有的目录 Allow:/public/ //表示在排除Disallow中,可以抓取的目录 2robotparse robotparse就是用来

Python爬虫的道德规范---robots协议

编写爬虫程序爬取数据之前,为了避免某些有版权的数据后期带来的诸多法律问题, 可以通过查看网站的robots.txt文件来避免爬取某些网页. robots协议,告知爬虫等搜索引擎那些页面可以抓取,哪些不能.它只是一个通行的道德规范, 没有强制性规定,完全由个人意愿遵守.作为一名有道德的技术人员,遵守robots协议, 有助于建立更好的互联网环境. 网站的robots文件地址通常为网页主页后加robots.txt,如 www.taobao.com/robots.txt 一个简单判断用户代理是否符合r

python学习八十四天：爬虫基础

爬虫基础爬虫相关概念简介什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好. 2.java:可以实现爬虫.java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌.但是java实现爬虫代码较为臃肿,重构成本较大. 3.c.c++:可以实现爬虫.但是

爬虫基础总结

爬虫设计爬虫基本包含爬虫调度器,URL管理器(已爬与待爬),HTML下载器(获取网络信息),HTML解析器,数据存储器五个部分. 0x1 网站调研了解网站基本特点,设计相应的爬取方案探测反爬措施,设计对应反反爬方式查看网站的robot.txt与sitemap,了解网站限制内容 User-agent: 指定对哪些爬虫生效 Disallow: 指定不允许访问的网址 Allow: 指定允许访问的网址识别网站使用的技术(builtwith),了解内容大概以什么形式加载估计网站相应页面的规模