关于robots.txt设置方法

通过网站访问日志我们可以看见很多蜘蛛爬行记录。搜索引擎都遵守互联网robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则,以及设置搜索引擎蜘蛛Spider抓取内容规则。

通过robots.txt来进行限制,首先在网站跟目录下面建立一个robots.txt文件。下面先对robots.txt一些实例说明,然后根据网站情况进行规则设置。下面列出一些设置规则供大家参考。

I . 禁止所有搜索引擎访问网站的任何部分 

User-agent: *

Disallow: /

II. 允许所有的robot访问 (或者建一个空文件 “/robots.txt” )

User-agent: *

Allow:

III. 禁止某个搜索引擎的访问(比如禁止BaiDuSpider

User-agent: BaiDuSpider

Disallow: /

IV. 允许某个搜索引擎的访问 

User-agent: Baiduspider

allow:/

V.禁止目录搜索引擎访问,比如禁止admin ,install目录

    User-agent: *

Disallow: /admin/

Disallow: /install/

VI.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

VII.禁止百度搜索引擎抓取你网站上的所有图片

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

时间: 2024-10-11 03:26:19

关于robots.txt设置方法的相关文章

nginx下禁止访问robots.txt的设置方法

关于robots.txt文件:搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 访问,可以得知我们网站中存在/admin和/bbs,其中/admin是关于后台管理的目录,把这个路径轻易的暴漏显然是不太安全的,下面我们可以通过禁止访问.txt类型的文件来,增

如何设置网站的robots.txt

做过网站优化的朋友都知道,搜索引擎蜘蛛爬行抓取网站时首先会去访问根目录下的robots.txt文件,如果robots文件存在,则会根据robots文件内设置的规则进行爬行抓取,如果文件不存在则会顺着首页进行抓取,那么robots文件的工作原理是什么呢?如何对robots.txt文件进行设置. robots.txt是一个纯文本的文件,文件的名字必须全部小写,并且放置在网站的根目录下面,通过文件中的规则声明网站哪些内容不想被搜索引擎蜘蛛抓取收录,或者指定某个搜索引擎不能收录robots.txt也叫做

robots.txt文件配置和使用方法详解

robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件. robots.txt文件是什么? robots.txt是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件. robots.txt文件有什么作用? 通过robots.txt

IIS设置文件 Robots.txt 禁止爬虫

robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-Agent.Disallow.Allow行. User-Agent行 User-Agent: robot-name User-Agent: * Disallow和Allow行 Disallow: /path Disallow: # 空字符串,起通配符效果,全禁止 Allow: /path Allow:

WordPress默认自带的robots.txt文件设置在哪里

网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,robots默认都是放在网站根目录.刚建好的WordPress网站,打开robots.txt是能访问的,但是在网站目录却找不到任何robots.txt文件,其实默认的robots文件放在wp-includes/functions.php中,通过搜索robots大概在1319行可进行修改 原文地址:https://www.cnblogs.com/xuwen777/p/11703566.html

robots.txt禁止搜索引擎收录

禁止搜索引擎收录的方法         一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如

nginx 的多域名多https转发设置方法【转】

version: 1.1(fixed) 修正一些错误基本环境:/etc/nginx/nginx.conf #保持/etc/nginx/ssl/    #ssl认证文件/etc/nginx/site-available  #VirtualHost设置区/etc/nginx/site-enable  #VirtualHost应用区 基本设计:让nginx支持多域名(包括二级域名),并自动跳转到https(所有域名默认访问https),反向代理转发到后台不同端口. 设置文件:/etc/nginx/si

Natas Wargame Level 3 Writeup 与 robots.txt

从HTML的注释代码来看,"google无法搜索到这个页面" -> 说明该网站很可能设置了防爬虫机制:robots.txt 以下是robots.txt的介绍(来自维基百科): --------------------------------------------------------------------------------- robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛), 此网站中的

SEO之robots.txt

[关键词:robot.txt,sitemap,User-Agent,Disallow,Allow][声明:摘自Wikipedia] 1. 定义:robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的.有些搜索引擎会遵守这一规范,而其他则不然.通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面.2.要求:   0.robots.t