利用 Html 元标记控制搜索引擎蜘蛛

摘要:快照不被百度缓存: meta name = Baiduspider content = noarchive

所有搜索引擎,抓取这个页面、爬行链接、禁止快照: meta name = robots content = index,follow,noarchive ---------------------------------------------------------- meta name = robo...

快照不被百度缓存:

<metaname="Baiduspider"content="noarchive">

所有搜索引擎,抓取这个页面、爬行链接、禁止快照:

<metaname="robots"content="index,follow,noarchive">

----------------------------------------------------------

<metaname="robots"content="noarchive">

以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写

<metaname="Baiduspider"content="noarchive">

需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。

第二种情况:禁止搜索引擎抓取本页面。

在SEO中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因此我们需要对这一部分重点做一次讨论。

为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:

<METANAME="ROBOTS"CONTENT="NOINDEX,FOLLOW">

在这里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的 “,”分隔。

INDEX  命令:告诉搜索引擎抓取这个页面

FOLLOW  命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。

NOINDEX  命令:告诉搜索引擎不允许抓取这个页面

NOFOLLOW 命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令,我们就有了一下的四种组合

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接 

<METANAME="ROBOTS"CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接 

<METANAME="ROBOTS"CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接 

<METANAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接

这里需要注意的是,不可把两个对立的反义词写到一起,例如

<METANAME="ROBOTS"CONTENT="INDEX,NOINDEX">

或者直接同时写上两句

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW"><METANAME="ROBOTS"CONTENT="NOINDEX,FOLLOW">

这里有一个简便的写法,如果是

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW">

的形式的话,可以写成:

<METANAME="ROBOTS"CONTENT="ALL">

如果是

<METANAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW">

的形式的话,可以写成:

<METANAME="ROBOTS"CONTENT="NONE">

当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW,noarchive">

如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:

<METANAME=" Baiduspider"CONTENT="INDEX,FOLLOW,noarchive">

如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW, archive">

因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。

在SEO中,对于蜘蛛的控制是非常重要的一部分内容,所以希望各位看官准确把握这部分的内容。

时间: 2025-01-14 07:30:21

利用 Html 元标记控制搜索引擎蜘蛛的相关文章

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52 1.百度蜘蛛:Baiduspider网上的资料百度蜘蛛名称有BaiduSpider.baiduspider等,都洗洗睡吧,那是旧黄历了.百度蜘蛛最新名称为Baiduspider.日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛.常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap).Baiduspider-image(抓取

搜索引擎蜘蛛爬虫原理

permike 原文 搜索引擎蜘蛛爬虫原理 关于搜索引擎的大话还是少说些,下面开始正文搜索引擎蜘蛛爬虫原理: 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入

Web前端开发如何利用css样式来控制Html中的h1/h2/h3标签不换行

  H1/H2/H3/H4标题标签常常使用在一个网页中唯一标题.重要栏目.重要标题等情形下. H1在一个网页中最好只使用一次,如对一个网页唯一标题使用.H2.H3.H4标签则可以在一个网页中多次出现,但必要随意添加或添加过度. 在Web前端开发中,经常要使用H1标签对关键字进行优化,可是如果是一行文字中的某个词加上了H1标记,就会换行.可以使用下面的方法,H标签就不会强制换行了.Css控制为一行文字中某个字加上<h2>标签不换行,display:inline; 解释为:内联对象的默认值.用该值

1.元类介绍/2.自定义元类控制类的行为/3.控制类的实例化行为/4.控制类的实例化行为的应用

1.元类介绍 1.储备知识exec()参数1;字符串形式得命令参数2.全局作用域(字典形式),如果不指定默认就使用globals()参数3.局部作用域(字典形式),如果不指定默认就使用locals() 2.python 一切皆对象 ,对象可以怎么用? 2.1. 都可以被引用 x=obj 2.2. 都可以当作函数得参数传入 2.3. 都可以当作函数得返回值 2.4. 都可以当作容器类得元素 li=[func,time] # 类也是对象,Foo=type() 类是属于type() 类 3.什么叫元类

利用ManualResetEvent来来控制异步调用的打印的线程的暂停和恢复(转)

利用ManualResetEvent来来控制异步调用的打印的线程的暂停和恢复 打印过程可能很长,这时候有可能需要暂停下来做一些事情,然后回来继续接着打印 打印过程中有2个线程:一个是程序运行的主线程,一个是异步调用的打印线程,需要实现的是在主线程中的控件(暂停打印按纽)来控制打印线程   的暂停和恢复. ManualResetEvent就像一个信号灯,当有信号的时候(初始化为true或者有线程调用它的set()方法)就表示所有在等待(WaitOne())的线程,你们可以 继续运行了,当没有信号的

搜索引擎蜘蛛及网站robots.txt文件详解[转载]

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜

什么是搜索引擎蜘蛛机器人?是如何工作的

什么是搜索引擎蜘蛛机器人?是如何工作的? 在互联网发展初期,网站相对较少,信息查找比较容易.然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了. 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie.虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开

利用JS实现键盘控制下拉列表的滚动

昨晚自己倒腾的.估计这种代码只有自己看得懂了.第一篇博文,纪念一下. 代码插入这个还是比较方便的~~ var keyHandler=function(event){ var e = event || window.event || arguments.callee.caller.arguments[0]; var hoverCSS={ color: '#FFF', 'background-color': '#6E9DE4' }; var backCSS={ color:'#000', 'back

Web网站如何查看搜索引擎蜘蛛爬虫的行为

简介 本文给大家介绍Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为,清楚蜘蛛的爬行情况对做SEO优化有很大的帮助.需要的朋友通过本篇文章学习下吧 摘要 做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况. 下面我们针对nginx服务器进行分析,日志文件所在目录  /usr/local/nginx/logs/access.log access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过