Robots.txt详解

Robots协议（爬虫协议、机器人协议）的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取；

优化蜘蛛爬行：

　　1、提高爬行效率

　　2、减少带宽消耗

　　3、防止双收录

如何在自己的网站设置robots.txt?

　　1、新建Robots.txt

　　2、编辑内容

　　3、上传到根目录

　　注意：Robots.txt文件名必须都是小写

　　　　　Robots.txt必须放到网站根目录

Robots.txt语法详解：

　　User-agent: Baiduspider

　　注意：在冒号后面，要加一个空格。否则不生效。

　　Disallow

　　Disallow: *?*

　　　　禁止搜索引擎收录动态的URL

　　Allow

　　Allow: .jpg$

　　　$ : 通配符，用来表示某一类型文件后缀

Robots.txt提交地图：

　　Sitemap:http://...

如何检测Robots.txt ?

　　网址：http://zhanzhang.baidu.com/robots/index

时间： 2024-10-10 09:09:53

Robots.txt详解的相关文章

防反编译、混淆文件proguard.cfg与proguard-project.txt详解

在新版本的ADT创建项目时,混码的文件不再是proguard.cfg,而是project.properties和proguard-project.txt. 如果需要对项目进行全局混码,只需要进行一步操作: 将project.properties的中 “# proguard.config=${sdk.dir}/tools/proguard/proguard-android.txt:proguard-project.txt”的“#”去掉就可以了. 如果有一些代码不能被混淆,比如需要加入了so文件

关于android混淆文件project.properties和proguard-project.txt详解

一直不明白Android开发中的有些文件的具体作用,后来用到了,具体研究了一下,借鉴了一下网上的资料,最后总结下,方便以后查看! 老版本中有这么个文件default.properties,既然是老版本,已经淘汰了的,就不再深究. 而新版本的ADT创建项目时,混码的文件project.properties和proguard-project.txt. 如果需要对项目进行全局混码,进行如下操作: 将project.properties文件中的 “# proguard.config=${sdk.dir

Robots.txt 协议详解及使用说明

一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓):一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓). 当一个搜索机器人(蜘蛛)访问一个站点时,它会首先检查网站根目录下是否存在robots.txt,如果存在,就会按照文

robots.txt文件配置和使用方法详解

robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件. robots.txt文件是什么? robots.txt是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件. robots.txt文件有什么作用? 通过robots.txt

搜索引擎蜘蛛及网站robots.txt文件详解[转载]

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜

robots.txt的语法和写法详解

robots.txt是一个纯文本文件,是搜索引擎蜘蛛爬行网站的时候要访问的第一个文件,当蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围,相当于网站与搜索引蜘蛛遵循协议,如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被屏蔽的网页,作为站长,我们就可以通过robots.txt文件屏蔽掉错误的页面和一些不想让蜘蛛爬取和收录的页面,那么robots.txt该怎么样写呢? robots的语法: 1.User-

C#处理文本文件TXT实例详解

本文实例讲述了C#处理文本文件TXT的方法.分享给大家供大家参考.具体分析如下: 1. 如何读取文本文件内容: 这里介绍的程序中,是把读取的文本文件,用一个richTextBox组件显示出来.要读取文本文件,必须使用到"StreamReader"类,这个类是由名字空间"System.IO"中定义的.通过"StreamReader"类的"ReadLine()"方法,就可以读取打开数据流当前行的数据了.下面代码实现的功能就是读取

Netsuite Formula > Oracle函数列表速查(PL/SQL单行函数和组函数详解).txt

PL/SQL单行函数和组函数详解函数是一种有零个或多个参数并且有一个返回值的程序.在SQL中Oracle内建了一系列函数,这些函数都可被称为SQL或PL/SQL语句,函数主要分为两大类: 单行函数组函数本文将讨论如何利用单行函数以及使用规则. SQL中的单行函数 SQL和PL/SQL中自带很多类型的函数,有字符.数字.日期.转换.和混合型等多种函数用于处理单行数据,因此这些都可被统称为单行函数.这些函数均可用于SELECT,WHERE.ORDER BY等子句中,例如下面的例子中就包含了TO

IIS-logfiles详解以及日志日期问题

IIS日志的含义IIS是Internet Information Server的缩写,意思是英特网信息服务,日志就是运行的记录 IIS日志的默认目录就是%systemroot%\system32\logfiles\(当然也可自定义了)日志格式:ex+年份的末两位数字+月份+日期文件后缀:.log 如2010年9月30日的日志生成文件是ex300910.log IIS日志是每个服务器管理者都必须学会查看的,服务器的一些状况和访问IP的来源都会记录在IIS日志中,所以IIS日志对每个服务器管理者非