网页取消快照、禁止抓取等meta标签功能

　　以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话，就可以像如下这样去写

　　需要注意的是，这样的标记仅仅是禁止搜索引擎为你的网站建立快照，如果你要禁止搜索引擎索引你的这个页面的话，请参照后面的办法。

　　第二种情况：禁止搜索引擎抓取本页面。

　　在SEO中，禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因此我们需要对这一部分重点做一次讨论。

　　为了让搜索引擎禁止抓取本页面，我们一般的做法是在页面的元标记中加入如下的代码：

　　在这里，META NAME="ROBOTS"是泛指所有的搜索引擎的，在这里我们也可以特指某个搜索引擎，例如META NAME="Googlebot"、META NAME="Baiduspide"等。content部分有四个命令：index、noindex、follow、nofollow，命令间以英文的“,”分隔。

　　INDEX命令：告诉搜索引擎抓取这个页面

　　FOLLOW命令：告诉搜索引擎可以从这个页面上找到链接，然后继续访问抓取下去。

　　NOINDEX命令：告诉搜索引擎不允许抓取这个页面

　　NOFOLLOW命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

　　根据以上的命令，我们就有了一下的四种组合

　　<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：可以抓取本页，而且可以顺着本页继续索引别的链接

　　<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不许抓取本页，但是可以顺着本页抓取索引别的链接

　　<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：可以抓取本页，但是不许顺着本页抓取索引别的链接

　　<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不许抓取本页，也不许顺着本页抓取索引别的链接。

　　这里需要注意的是，不可把两个对立的反义词写到一起，例如

　　或者直接同时写上两句

　　这里有一个简便的写法，如果是

　　<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">的形式的话，可以写成：

　　如果是

　　<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">的形式的话，可以写成：

　　当然，我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知，禁止建立网页快照的命令是noarchive，那么我们就可以写成如下的形式：<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW,noarchive">

　　如果是对于单独的某个搜索引擎不允许建立快照，例如百度，我们就可以写成：

　　如果在元标记中不屑关于蜘蛛的命令，那么默认的命令即为如下

　　因此，如果我们对于这一部分把握不准的话，可以直接写上上面的这一行命令，或者是直接留空。

　　在SEO中，对于蜘蛛的控制是非常重要的一部分内容，所以希望各位看官准确把握这部分的内容。

原文地址：https://www.cnblogs.com/webwangjie/p/8324616.html

时间： 2024-10-11 16:51:07

网页取消快照、禁止抓取等meta标签功能

网页取消快照、禁止抓取等meta标签功能的相关文章

网页调试技巧：抓取马上跳转的页面POST信息或者页面内容

C#语言实现对网页图片的随机抓取。基础办法，但还有一点小问题，欢迎大家指正

H5各种头部meta标签功能大全

html meta标签使用总结（转）

HTML meta标签总结与属性使用介绍

HTML meta标签使用介绍

HTML中的meta标签及其使用方法

用Python进行网页抓取

Asp.net 使用正则和网络编程抓取网页数据(有用)