禁止搜索引擎收录的方法

一.什么是robots.txt文件?

  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

  您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?

  robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器 人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

网站 URL 相应的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

    "<field>:<optionalspace><value><optionalspace>"。

  在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协
议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件
中,"User-agent:*"这样的记录只能有一条。

Disallow :
  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow
开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:
/help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"
/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

四. robots.txt文件用法举例

例1.
禁止所有搜索引擎访问网站的任何部分

   下载该robots.txt文件

User-agent: *
Disallow: /


例2.
允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt" file)


User-agent: *
Disallow:


例3.
禁止某个搜索引擎的访问


User-agent: BadBot
Disallow: /

例4.
允许某个搜索引擎的访问

User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /


例5.一个简单例子

  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/
/tmp/"。
  User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow:
/tmp/*" or "Disallow: *.gif"这样的记录出现.


User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

五. robots.txt文件参考资料

robots.txt文件的更具体设置,请参看以下链接:

· Web
Server Administrator‘s Guide to the Robots Exclusion Protocol

· HTML
Author‘s Guide to the Robots Exclusion Protocol

· The original 1994 protocol
description, as currently deployed

· The revised Internet-Draft
specification, which is not yet completed or implemented

时间: 2024-10-07 16:23:05

禁止搜索引擎收录的方法的相关文章

如何禁止搜索引擎收录的方法

一些站长在遇到网站被黑的时候,往往急着去处理网站的内容却忽略了网站被黑被攻击的本源,一方面网站可能在权限设置上缺乏考虑,另一方面网站可能有程序上的漏洞,根本的,在于网络攻击者看重了网站域名在互联网搜索引擎的作用,利用网站挂马进而宣传其违法或有害信息. 对于搜索引擎收录方面没有特别需求的用户,比如企业网站或内部办公系统等,在虚拟主机安全设置上可以考虑利用robots文件来禁止搜索引擎收录,这样的方式阻断了网络挂马的利益,通过这样的方式,也可能减少一些意外攻击风险.如何禁止搜索引擎收录呢?这里从ro

robots.txt禁止搜索引擎收录

禁止搜索引擎收录的方法         一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如

如何禁止搜索引擎收录抓取

第一种.robots.txt方法 搜索引擎默认的遵守robots.txt协议,创建robots.txt文本文件放至网站根目录下,编辑代码如下: User-agent:*Disallow: 通过代码,即可告诉搜索引擎不要抓取采取收录本网站. 第二种.网页代码 在网站首页代码<head>与</head>之间,加入<metaname="robots"content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照.

使用Discuz!自带参数防御CC攻击以及原理,修改Discuz X 开启防CC攻击后,不影响搜索引擎收录的方法

这部份的工作,以前花的时间太少. 希望能产生一定的作用. http://www.nigesb.com/discuz-cc-attacker-defence.html http://bbs.zb7.com/thread-8644-1-1.html CC攻击确实是很蛋疼的一种攻击方式,Discuz!的配置文件中已经有了一个自带的减缓CC攻击的参数,在配置文件config.inc.php中: 1 $attackevasive = 0;             // 论坛防御级别,可防止大量的非正常请求

nginx通过robots.txt禁止所有蜘蛛访问(禁止搜索引擎收录)

在server {} 块中添加下面的配置 location =/robots.txt { default_type text/html; add_header Content-Type "text/plain; charset=UTF-8"; return 200 "User-Agent: *\nDisallow: /"; } 在线测试robots.txt是否生效 https://ziyuan.baidu.com/robots/index robots.txt文件生

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

来源:脚本之家 http://www.jb51.net/yunying/28470.html 下面的这些方法是可以标本兼治的:1.限制IP地址单位时间的访问次数 分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了. 弊端:一刀切,这同样会阻止搜索引擎对网站的收录 适用网站:不太依靠搜索引擎的网站 采集器会怎么做:减少单位时间的访问次数,减低采集效率 2.屏蔽ip 分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可

秦绪文:三招让网站四小时内被搜索引擎收录

网站上线之后站长碰到的第一个问题就是让搜索引擎收录自己的网站,在我印象里,让搜索引擎收录网站的第一选择是将网站登录搜索引擎的提交窗口,然后等待搜索引擎的收录,而如今虽然很多人还在用这招,但是我觉得有点不合时宜了,与其被搜索引擎牵着鼻子走,为什么不反其道而行之,让搜索引擎主动来收录自己的网站呢?首先申明一下我自己也是个SEO新手,我的站是今天下午四点多的时候上线的,之所以要写这篇文章是因为我让我的网站在几个小时之内就被谷歌收录了,不久搜索页收录了,而且长沙网络推广这个关键词已经有排名了,目前排在第

提高 Discuz 门户文章被百度收录的方法

如果你了解 SEO,你就该清楚使用 canonical URL 标签可以固定网页标准地址,可以提高网页的权重,有利于搜索引擎收录. 例如我的网站拥有两个子域名www.bbseat.com.cn和bbs.bbseat.com.cn,都可以访问同一个文章页面,那么这样的设置就会分散网页权重,不利于收录.使用 canonical URL 标签就可以为网页指定一个标准的地址,可以提高网页权重,利于收录. 但是你可以查看一下门户和论坛的源代码,会发现论坛帖子有 canonical URL 而门户文章没有.

自助建站如何让网站被搜索引擎收录?

快速.高效.主动性强是当下流行的生活方式.人们越来越希望把主动权掌握在自己手中.而企业自助建站,可让企业.商家快速搭建官方网站,不满意即可随时登陆修改,自由度高,编辑性强,无需再因为修改一张图,更换一个栏目名,而时刻督促着第三方建站公司修改,效率更高.但是,选择自助建站,在日后的工作中又该如何实现网站搜索引擎收录呢? 下面,小编就为大家归纳了几条相关建议,仅供广大站长朋友们参考. 一.填充网站内容,注意更新频率 首先,网站上线前请确保每个栏目下有3-5篇文章,不要太多,也不要太少,这样可以给蜘蛛