Robots.txt详解

Robots协议(爬虫协议、机器人协议)的全称是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取;

优化蜘蛛爬行:

  1、提高爬行效率

  2、减少带宽消耗

  3、防止双收录

如何在自己的网站设置robots.txt?

  1、新建Robots.txt

  2、编辑内容

  3、上传到根目录

  注意:Robots.txt文件名必须都是小写

     Robots.txt必须放到网站根目录

Robots.txt语法详解:

  User-agent: Baiduspider

  注意:在冒号后面,要加一个空格。否则不生效。

  Disallow

  Disallow: *?*

    禁止搜索引擎收录动态的URL

  Allow

  Allow: .jpg$

   $ : 通配符,用来表示某一类型文件后缀

Robots.txt提交地图:

  Sitemap:http://...

如何检测Robots.txt ?

  网址:http://zhanzhang.baidu.com/robots/index

  

时间: 2024-10-10 09:09:53

Robots.txt详解的相关文章

防反编译、混淆文件proguard.cfg与proguard-project.txt详解

在新版本的ADT创建项目时,混码的文件不再是proguard.cfg,而是project.properties和proguard-project.txt. 如果需要对项目进行全局混码,只需要进行一步操作: 将project.properties的中 “#  proguard.config=${sdk.dir}/tools/proguard/proguard-android.txt:proguard-project.txt”的“#”去掉就可以了. 如 果有一些代码不能被混淆,比如需要加入了so文件

关于android混淆文件project.properties和proguard-project.txt详解

一直不明白Android开发中的有些文件的具体作用,后来用到了,具体研究了一下,借鉴了一下网上的资料,最后总结下,方便以后查看! 老版本中有这么个文件default.properties,既然是老版本,已经淘汰了的,就不再深究. 而新版本的ADT创建项目时,混码的文件project.properties和proguard-project.txt. 如果需要对项目进行全局混码,进行如下操作: 将project.properties文件中的 “#  proguard.config=${sdk.dir

Robots.txt 协议详解及使用说明

一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓):一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓). 当一个搜索机器人(蜘蛛)访问一个站点时,它会首先检查网站根目录下是否存在robots.txt,如果存在,就会按照文

robots.txt文件配置和使用方法详解

robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件. robots.txt文件是什么? robots.txt是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件. robots.txt文件有什么作用? 通过robots.txt

搜索引擎蜘蛛及网站robots.txt文件详解[转载]

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜

robots.txt的语法和写法详解

robots.txt是一个纯文本文件,是搜索引擎蜘蛛爬行网站的时候要访问的第一个文件,当蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围,相当于网站与搜索引蜘蛛遵循协议,如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被屏蔽的网页,作为站长,我们就可以通过robots.txt文件屏蔽掉错误的页面和一些不想让蜘蛛爬取和收录的页面,那么robots.txt该怎么样写呢? robots的语法: 1.User-

C#处理文本文件TXT实例详解

本文实例讲述了C#处理文本文件TXT的方法.分享给大家供大家参考.具体分析如下: 1. 如何读取文本文件内容: 这里介绍的程序中,是把读取的文本文件,用一个richTextBox组件显示出来.要读取文本文件,必须使用到"StreamReader"类,这个类是由名字空间"System.IO"中定义的.通过"StreamReader"类的"ReadLine()"方法,就可以读取打开数据流当前行 的数据了.下面代码实现的功能就是读取

Netsuite Formula > Oracle函数列表速查(PL/SQL单行函数和组函数详解).txt

PL/SQL单行函数和组函数详解 函数是一种有零个或多个参数并且有一个返回值的程序.在SQL中Oracle内建了一系列函数,这些函数都可被称为SQL或PL/SQL语句,函数主要分为两大类: 单行函数 组函数 本文将讨论如何利用单行函数以及使用规则. SQL中的单行函数 SQL和PL/SQL中自带很多类型的函数,有字符.数字.日期.转换.和混合型等多种函数用于处理单行数据,因此这些都可被统称为单行函数.这些函数均可用于SELECT,WHERE.ORDER BY等子句中,例如下面的例子中就包含了TO

IIS-logfiles详解以及日志日期问题

IIS日志的含义IIS是Internet Information Server的缩写,意思是英特网信息服务,日志就是运行的记录 IIS日志的默认目录就是%systemroot%\system32\logfiles\(当然也可自定义了)日志格式:ex+年份的末两位数字+月份+日期 文件后缀:.log 如2010年9月30日的日志生成文件是ex300910.log IIS日志是每个服务器管理者都必须学会查看的,服务器的一些状况和访问IP的来源都会记录在IIS日志中,所以IIS日志对每个服务器管理者非