利用html标签限制搜索引擎对网站的抓取收录

有时有这样的需求，在网页未制作完成，或涉及隐私不能公布，而这时又不能阻止搜索引擎来抓取网页！

第一种方法：限制网页快照

限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">

限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

第二种方法：禁止搜索引擎抓取本页面和搜索引擎引用页面

在这里，META NAME="ROBOTS" 是泛指所有的搜索引擎的，在这里我们也可以特指某个搜索引擎。

例如：META NAME="Googlebot"、META NAME="Baiduspide" 等。

content部分有四个命令：index、noindex、follow、nofollow，命令间以英文的“,”分隔。

INDEX命令：告诉搜索引擎抓取这个页面

FOLLOW命令：告诉搜索引擎可以从这个页面上找到链接，然后继续访问抓取下去。

NOINDEX命令：告诉搜索引擎不允许抓取这个页面

NOFOLLOW命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令，就有了以下的四种组合：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：可以抓取本页，而且可以顺着本页继续索引别的链接；

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不许抓取本页，但是可以顺着本页抓取索引别的链接；

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：可以抓取本页，但是不许顺着本页抓取索引别的链接；

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不许抓取本页，也不许顺着本页抓取索引别的链接。

通过robots.txt

所谓的robots.txt文件，是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件，搜索引擎就可以知道在你的网站中，哪些文件是可以被索引的，哪些文件是被拒绝索引的。

时间： 2025-01-18 08:33:13

利用html标签限制搜索引擎对网站的抓取收录的相关文章

C# 从需要登录的网站上抓取数据

[转] C# 从需要登录的网站上抓取数据背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算机的,我还是厚着脸皮答应了. . 刚开始想的是直接发送GET请求,然后再解析返回的html不就可以获取需要的信息吗?的确,如果是不需要登录的网站,这样可行,但对于这个网站就行不通.所以首先我们需要做的就是抓包,即分析用户登录时浏览器向服务器发送的POST请求.许多浏览器都自带抓包工具,但我还是更喜欢

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息. 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制.想更多了解网络数据采集基础知识,可以参考文后的资料. 在采集网站的时会遇到一些比

网站手机号码抓取软件哪个好？自己使用的经历推荐

相信看这篇文章的人都是做网络营销方面的人,不管是擅长SEO 也好,还是擅长sem也好,或者钟爱开发技术也吧.做网络营销,无非三步取, 1 导流2 转化3 成交网络营销老手都知道,网络营销领域竞争最激烈的两个行业1.医疗(百度医疗竞价收入占竞价总收入超过30%) 2.电商金融教育. 多年的混迹医疗网络营销经常会有朋友问过我,有没有好的网络推广方式.网络推广软件推荐? 导入流量.不管是免费的SEO导入流量也好,还是sem竞价导入的流量也把,或者其他锚文本,平台链接,问答 ,论坛文章等等一切.

C#实现百度ping功能解决百度不抓取收录网站的问题

网站优化必做的事情之一,百度ping,主动推送给百度文章添加时调用百度推送方法 //保存 protected void btnSubmit_Click(object sender, EventArgs e) { if (action == DTEnums.ActionEnum.Edit.ToString()) //修改 { ChkAdminLevel("channel_" + this.channel_name + "_list", DTEnums.ActionE

百度搜索引擎蜘蛛爬行与抓取工作原理seo优化

http://www.mypm.net/expert/show_question_content.asp?questionId=276748http://www.mypm.net/expert/show_question_content.asp?questionId=276772http://www.mypm.net/expert/show_question_content.asp?questionId=276824http://www.mypm.net/expert/show_question

pylibcurl之https搜索引擎之网络数据抓取小例子，302moved?google搜索引擎不让你抓搜索结果？？ok，此文问题通通解决

前提:操作平台-WIN7 一.首先你得python,我安装的是python2.7.9 二.其次,你得安装pyLibCurl,安装方式:http://pycurl.sourceforge.net/ 三.最后,你得编写测试用例test.py:(当然,从代码中可以看出你电脑得有E盘,否则改一下代码,然后我抓取的数据是google一下test的数据) #! /usr/bin/env python # -*- coding: utf-8 -*- # vi:ts=4:et import sys import

使用Python实现网站图片抓取

1,Python环境 2,下面直接编写代码 import urllibimport reimport time def getHtml(url):page = urllib.urlopen(url)html = page.read()html = html.decode('utf-8')return html def getImgUrl(html):str_re = r'<img[^>]src[=\"\']+([^\"\'])[\"\'][^>]*>'

辉赞互联倾情推荐-面向搜索引擎的网站建设

很多seoer在做网站优化的时候都会遇到一个问题,那就是网站质量的问题.我也听说过很多seoer抱怨网站建的是如何如何的垃圾.其实想做好网站排名,第一步是有个根据网站优化所需条件建的站也就是符合百度蜘蛛喜欢的网.如何面向搜索引擎建站,下面由辉赞互联给大家推荐,当然前提是得到程序的配合. 搜索引擎只是网站上一个普通的访客,对网站的抓取方式.对网站/网页的价值判断,也都是从用户的角度出发的,任何对用户体验的改进,都是对搜索引擎改进.对搜索引擎的优化,同时也会让用户受益.面向搜索引擎的网站建设,主要

二毛解读：百度蜘蛛每天都来爬取网站，却只收录首页是怎么回事？

昨夜,一位SEO友人问我一个这样的问题:百度蜘蛛每天都来爬取网站,却只收录首页,文章页及其他页面均未收录,问我是怎么回事? 其实这个问题非常普遍,可以从两个方面分析: 1. 网站内部优化是否完善: 2. 时间问题(文章够原创,站内优化够完善,迟早会收录). 我们主要来谈谈第一个问题:网站内部优化. 其实SEO是什么?SEO不是单纯的迎合百度及其他搜索引擎,他是时刻随用户的体验度来考量网站是否合适.在当今的互联网大环境下,暂时还是随着大多数用户的习惯性体验来对你的网站进行抓取,拍照,索引.网站优化