有的时候我们的网站可能还在调试阶段,或者只对部分告知用户或内部人使用,可能不想让搜索引擎抓取我们的网站,以下介绍几种屏蔽搜索引擎的抓取:
1.在网站的根目录下创建robots.txt,添加内容:
User-agent:* Disallow:/ 禁止某一搜索引擎,如百度:
User-agent:baiduspider Disallow:/
各大搜索引擎代号:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
搜狗蜘蛛:sogou spider
SOSO蜘蛛:sosospider
360:PeopleRank
2.在网站单页的<head></head>之间添加Meta信息:
<Meta name=”robots” content=”INDEX,FOLLOW”>
CONTENT=INDEX,FOLLOW:可以抓取本页,而且可以顺着本页继续索引别的链接
CONTENT=NOINDEX,FOLLOW:不许抓取本页,但是可以顺着本页抓取索引别的链接
CONTENT=INDEX,NOFOLLOW:可以抓取本页,但是不许顺着本页抓取索引别的链接
CONTENT=NOINDEX,NOFOLLOW:不许抓取本页,也不许顺着本页抓取索引别的链接。
还可以用以下语句禁止搜索引擎为页面建立快照:
<Meta name=”robots” content=”INDEX,FOLLOW,noarchive”>
3.在网站的根目录下建一个.htaccess文件,这样比robots更加严密(仅适合技术人员),文件内容:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]