怎么设置不让搜索引擎收录某些页面

一、关于robots文件

1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

2. 只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。

3. 语法解释:

最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为:

User-agent:*

Disallow:/

其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。 Disallow后什么都不写,代表允许抓取一切页面。

二、关于meta robots标签

1. 用于指令搜索引擎禁止索引本页内容。

2. 语法解释:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

noindex:告诉蜘蛛不要索引本页面。

nofollow:告诉蜘蛛不要跟踪本页面上的链接。

nosnippet:告诉蜘蛛怒要在搜索结果中显示说明文字。

noarchive:告诉搜索引擎不要显示快照。

noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

时间: 2024-11-10 14:18:21

怎么设置不让搜索引擎收录某些页面的相关文章

discuz X3.1的门户文章实现伪静态,利于搜索引擎收录url的地址修改

最近在捣鼓DZ框架,这两天发现文章的收录情况并不是太理想,做了很多优化方面的工作,今天主要解决了DZ门户的文章链接伪静态化,在这次修改之前,也做过一次在网上找的静态化修改,之前做的方式是: 1.在DZ管理后台->全局->seo设置->url静态化模块中,开启如下配置 2.在nginx的配置文件中,添加url的rewrite规则如下图,添加完规则后,在门户首页和频道列表中显示的url规则是:http://xxx.com/article-aid-page.html;其中aid是文章id,pa

mycncart系统后台主动推送网址url给百度搜索引擎收录

自mycncart 1.3版本开始具有此功能.本功能主要作用是利用百度的主动推送功能,将mycncart系统的相关网址,如分类,品牌,商品,文章等url地址主动推送给百度搜索引擎,百度搜索引擎收录后会返回成功的提示.当然,网址啥时候给你释放出来,还是百度说了算. 开通步骤:1. 登录百度站长平台: http://zhanzhang.baidu.com , 管理你的网站,网站验证通过后,点击左侧[链接提交], 找到[主动推送(实时)], 点击里面的[php推送示例],会看到里面代码中有api一行,

github+hexo搭建自己的博客网站(六)进阶配置(搜索引擎收录,优化你的url)

详细的可以查看hexo博客的演示:https://saucxs.github.io/ 绑定了域名: http://www.chengxinsong.cn hexo+github博客网站源码(可以clone,运行,看到博客演示.觉得可以给颗星星):https://github.com/saucxs/hexo-blog-origin.git 一.搜索引擎收录 1.验证网站所有权 登录百度站长平台:http://zhanzhang.baidu.com,只要有百度旗下的账号就可以登录,登录成功之后在站点

网站出现重复内容 百度收录重复页面怎么办

在搜索引擎收录中时我们可能会发现,同样的内容搜索引擎收录了不止一次,其中有“静态页面,也有动态或伪静态页面.看似增加了网站的收录量是好事,实则“重复内容”的收录对SEO优化并不好,最后所带来的结果,轻则重复快照被回收删除,重则直接影响网站权重. 今天为你详细分析: 1.为什么网站同一个页面会被重复收录? 2.重复收录对SEO优化有什么影响? 3.我们该如何应对网站重复收录的问题? 从以上的例子,我们可以看出网站的首页除了静态页面收录以外,还有很多后缀带“?qz_gdt=”的动态页面的收录,但打开

robots.txt禁止搜索引擎收录

禁止搜索引擎收录的方法         一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如

秦绪文:三招让网站四小时内被搜索引擎收录

网站上线之后站长碰到的第一个问题就是让搜索引擎收录自己的网站,在我印象里,让搜索引擎收录网站的第一选择是将网站登录搜索引擎的提交窗口,然后等待搜索引擎的收录,而如今虽然很多人还在用这招,但是我觉得有点不合时宜了,与其被搜索引擎牵着鼻子走,为什么不反其道而行之,让搜索引擎主动来收录自己的网站呢?首先申明一下我自己也是个SEO新手,我的站是今天下午四点多的时候上线的,之所以要写这篇文章是因为我让我的网站在几个小时之内就被谷歌收录了,不久搜索页收录了,而且长沙网络推广这个关键词已经有排名了,目前排在第

如何禁止搜索引擎收录的方法

一些站长在遇到网站被黑的时候,往往急着去处理网站的内容却忽略了网站被黑被攻击的本源,一方面网站可能在权限设置上缺乏考虑,另一方面网站可能有程序上的漏洞,根本的,在于网络攻击者看重了网站域名在互联网搜索引擎的作用,利用网站挂马进而宣传其违法或有害信息. 对于搜索引擎收录方面没有特别需求的用户,比如企业网站或内部办公系统等,在虚拟主机安全设置上可以考虑利用robots文件来禁止搜索引擎收录,这样的方式阻断了网络挂马的利益,通过这样的方式,也可能减少一些意外攻击风险.如何禁止搜索引擎收录呢?这里从ro

禁止搜索引擎收录的方法

一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如 http://www.abc.com)

Mac如何将Safari设置为默认搜索引擎?

Safari是我们使用mac电脑浏览网页的首选工具,如果想无论搜索任何内容都拿它打开的话,将它设置为默认的搜索引擎是最好的办法!那么Mac如何将Safari设置为默认搜索引擎?设置好默认的搜索引擎之后,无论是从哪个软件跳出的链接都会使用它打开,一起来看看如何操作吧! <ignore_js_op> Mac将Safari设置为默认搜索引擎步骤:第一步:要打开 Safari,然后点击屏幕左上角的 Safari 菜单,并选择偏好设置. <ignore_js_op> 第二步:选择"