robots讲解

在SEO网站优化中robots.txt文件的编写直接影响网站优化的成果。

正所谓，细节决定成败，robots.txt文件要怎么写？

一、为什么要写robots.txt文件，它的作用是什么？

robots.txt是用来告诉搜索引擎网站上哪些内容可以被访问、哪些不能被访问。

当搜索引擎访问一个网站的时候，它首先会检查网站是否存在robots.txt，如果有则会根据文件命令访问有权限的文件。

每个网站需要根据自身的要求写好robots.txt文件，robots.txt文件长什么样子？我们可以看看几个网站

的robots.txt文件。

淘宝robots.txt文件

百度robots.txt文件

网站为什么要写robots.txt，主要有四点：

1、保护网站安全

2、节省流量

3、禁止搜索引擎收录部分页面

4、引导蜘蛛爬网站地图

二、robots.txt的写法与步骤

1、定义搜索引擎

用User-agent：来定义搜索引擎，其中*表示所有，Baiduspider表示百度蜘蛛，Googlebot表示谷歌蜘蛛。

也就是说User-agent：*表示定义所有蜘蛛，User-agent：Baiduspider表示定义百度蜘蛛。

2、禁止与允许访问

Disallow: /表示禁止访问，Allow: /表示允许访问。

在写robots.txt时需特别注意的是，/前面有一个英文状态下的空格（必须是英文状态下的空格）。

3、禁止搜索引擎访问网站中的某几个文件夹，以a、b、c为例，写法分别如下：

Disallow: /a/

Disallow: /b/

Disallow: /c/

3-1、禁止搜索引擎访问文件夹中的某一类文件，以a文件夹中的js文件为例，写法如下：

Disallow: /a/*.js

4、只允许某个搜索引擎访问，以Baiduspider为例，写法如下：

User-agent: Baiduspider

Disallow:

5、禁止访问网站中的动态页面

User-agent: *

Disallow: /*?*

6、只允许搜索引擎访问某类文件，以htm为例，写法如下：

User-agent: *

Allow: .htm$

Disallow: /

7、禁止某个搜索引擎抓取网站上的所有图片，以Baiduspider为例，写法如下：

User-agent: F

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

三、robots.txt文件存放位置

robots.txt文件存放在网站根目录下，并且文件名所有字母都必须小写。

四、特别注意事项

在写robots.txt文件时语法一定要用对，User-agent、Disallow、Allow、Sitemap这些词都必须是第一个字母大写，

后面的字母小写，而且在:后面必须带一个英文字符下的空格。

网站上线之前切记写robots.txt文件禁止蜘蛛访问网站，如果不会写就先了解清楚写法之后再写，以免给网站收录

带来不必要的麻烦。

robots.txt文件生效时间在几天至一个月之间，站长自身无法控制。但是，站长可以在百度统计中

查看网站robots.txt 文件是否生效。

中国站长站robots文件在线生成：

http://tool.chinaz.com/robots/

时间： 2024-12-17 04:56:14

robots讲解的相关文章

实例讲解Nginx下的rewrite规则来源：Linux社区

一．正则表达式匹配,其中:* ~ 为区分大小写匹配* ~* 为不区分大小写匹配* !~和!~*分别为区分大小写不匹配及不区分大小写不匹配二．文件及目录匹配,其中:* -f和!-f用来判断是否存在文件* -d和!-d用来判断是否存在目录* -e和!-e用来判断是否存在文件或目录* -x和!-x用来判断文件是否可执行三．rewrite指令的最后一项参数为flag标记,flag标记有:1.last 相当于apache里面的[L]标记,表示rewrite.2.break本条规则匹配完成后,终止匹配

WordPress网站robots的具体写法

robots协议是规范搜索引擎抓取的,在网站优化当中他可以帮助我们处理死链接,保护网站数据安全有着胃肠主要的作用. Robots协议初衷:保护网站内部信息,保护服务器流量平衡在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,主要有如下原因: 一.快速抓取导致网站过载,影响网站正常运行; 二.重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源; 三.抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息; 四.抓取会对投票等

Html代码seo优化最佳布局实例讲解

搜索引擎对html代码是非常优化的,所以html的优化是做好推广的第一步.一个符合seo规则的代码大体如下界面所示. 1.<!–木庄网络博客–> 这个东西是些页面注释的,可以在这里加我的"木庄网络博客",但过多关键字可能被搜索引擎惩罚! 2.<html> 这个是代码开头结尾时和</html>对应. 3.<head> 头标记结尾用</head> 4.<title>(木庄网络博客-勤记录懂分享)</title

Python3网络爬虫实战-23、使用Urllib：分析Robots协议

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简单了解一下它的用法. 1. Robots协议 Robots 协议也被称作爬虫协议.机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取.它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下. 当搜索爬虫访问一个站点时,它首先会检查下这个站点根目录下是否存在 robots.tx

拓扑排序讲解

在这里我们要说的拓扑排序是有前提的我们在这里说的拓扑排序是基于有向无环图的!!!. (⊙o⊙)…我所说的有向无环图都知道是什么东西吧.. 如果不知道,我们下面先来来说说什么是有向无环图. 所谓有向无环图,顾名思义是不存在环的有向图(至于有向图是什么不知道的在前面我们有一个图论讲解上都有). 点的入度:以这个点为结束点的边数. 点的出度:以这个点为出发点的边的条数. 拓扑序就是对于一个节点的一个排列,使得(u,v)属于E,那么u一定出现在v的前面.然而拓扑排序就是一个用来求拓扑序的东西. 对于左

形象易懂讲解算法I——小波变换

https://zhuanlan.zhihu.com/p/22450818?refer=dong5 最早发于回答:能不能通俗的讲解下傅立叶分析和小波分析之间的关系? - 咚懂咚懂咚的回答现收入专栏. 从傅里叶变换到小波变换,并不是一个完全抽象的东西,可以讲得很形象.小波变换有着明确的物理意义,如果我们从它的提出时所面对的问题看起,可以整理出非常清晰的思路. 下面我就按照傅里叶-->短时傅里叶变换-->小波变换的顺序,讲一下为什么会出现小波这个东西.小波究竟是怎样的思路.(反正题主要求的是通俗形

vim编辑器讲解

--vim编辑器讲解(vim(vi的升级版),推荐vim) 打开文件(如果该文件不存在,则创建之后,保存,从内存写到硬盘上,不保存,则删除掉该文件) vim filename vim编辑器有3中模式:命令模式,插入模式,尾行模式. 命令模式:刚进入文件的时候开始的状态.u为撤销键命令模式进入插入模式:可以通过快捷键 i(当前光标位置插入) I(本行的开头) a(当前光标位置之后) A(当前光标所在最后) o O 插入模式返回命令模式:ESC 插入模式:主要用来编辑文本的. 尾行模式:主要用来,

Smarty 函数讲解

这里给大家总结了几种Smarty 函数并分别详细讲解了.如果你正在学习Smarty ,希望这篇文章对你有用. html_checkboxes 自定义函数 html_checkboxes 根据给定的数据创建复选按钮组. 该函数可以指定哪些元素被选定. 要么必须指定 values 和 ouput 属性,要么指定 options 替代. 所有的输出与 XHTML 兼容 html_checkbox用来用给定的数据创建checkbox.name表示checkbox的名称,values表示checkbox

ThinkPHP讲解（一）框架基础

ThinkPHP框架知识点过于杂乱,接下来将以问题的形势讲解tp(ThinkPHP的简写) 1.tp框架是什么,为什么使用是它? 一堆代码的集合,里边有变量.函数.类.常量,里边也有许多设计模式MVC.AR数据库.单例等等.框架可以节省我们50-60%的工作量,我们全部精力都集中在业务层次. 为什么使用框架框架可以帮组我们快速.稳定.高效搭建程序系统该系统由于框架的使用使得本身的维护性.灵活性.适应客户需求方面得到最大化的增强. 使用框架的过程中可以使得我们的注意力全部集中业务层面,而无需关