利用html标签限制搜索引擎对网站的抓取收录

有时有这样的需求,在网页未制作完成,或涉及隐私不能公布,而这时又不能阻止搜索引擎来抓取网页!

第一种方法:限制网页快照

限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">

限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

第二种方法:禁止搜索引擎抓取本页面和搜索引擎引用页面

<meta name="robots" conrent="noindex,follow">

在这里,META NAME="ROBOTS" 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。

例如:META NAME="Googlebot"、META NAME="Baiduspide" 等。

content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。

INDEX命令:告诉搜索引擎抓取这个页面

FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。

NOINDEX命令:告诉搜索引擎不允许抓取这个页面

NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令,就有了以下的四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接;

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接;

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。

通过robots.txt

所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。

时间: 2024-11-04 16:39:38

利用html标签限制搜索引擎对网站的抓取收录的相关文章

C# 从需要登录的网站上抓取数据

[转] C# 从需要登录的网站上抓取数据 背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算机的,我还是厚着脸皮答应了. . 刚开始想的是直接发送GET请求,然后再解析返回的html不就可以获取需要的信息吗?的确,如果是不需要登录的网站,这样可行,但对于这个网站就行不通.所以首先我们需要做的就是抓包,即分析用户登录时浏览器向服务器发送的POST请求.许多浏览器都自带抓包工具,但我还是更喜欢

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息. 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制.想更多了解网络数据采集基础知识,可以参考文后的资料. 在采集网站的时会遇到一些比

网站手机号码抓取软件哪个好? 自己使用的经历推荐

相信看这篇文章的人都是做网络营销方面的人,不管是擅长SEO 也好,还是擅长sem也好,或者钟爱开发技术也吧.做网络营销,无非三步取, 1 导流2 转化3 成交 网络营销老手都知道,网络营销领域竞争最激烈的两个行业1.医疗(百度医疗竞价收入占竞价总收入超过30%) 2.电商 金融 教育. 多年的混迹医疗网络营销 经常会有朋友问过我,有没有好的网络推广方式.网络推广软件推荐? 导入流量.不管是免费的SEO导入流量也好,还是sem竞价导入的流量也把,或者其他锚文本,平台链接,问答 ,论坛文章等等一切.

C#实现百度ping功能解决百度不抓取收录网站的问题

网站优化必做的事情之一,百度ping,主动推送给百度 文章添加时调用百度推送方法 //保存 protected void btnSubmit_Click(object sender, EventArgs e) { if (action == DTEnums.ActionEnum.Edit.ToString()) //修改 { ChkAdminLevel("channel_" + this.channel_name + "_list", DTEnums.ActionE

百度搜索引擎蜘蛛爬行与抓取工作原理seo优化

http://www.mypm.net/expert/show_question_content.asp?questionId=276748http://www.mypm.net/expert/show_question_content.asp?questionId=276772http://www.mypm.net/expert/show_question_content.asp?questionId=276824http://www.mypm.net/expert/show_question

pylibcurl之https搜索引擎之网络数据抓取小例子,302moved?google搜索引擎不让你抓搜索结果??ok,此文问题通通解决

前提:操作平台-WIN7 一.首先你得python,我安装的是python2.7.9 二.其次,你得安装pyLibCurl,安装方式:http://pycurl.sourceforge.net/ 三.最后,你得编写测试用例test.py:(当然,从代码中可以看出你电脑得有E盘,否则改一下代码,然后我抓取的数据是google一下test的数据) #! /usr/bin/env python # -*- coding: utf-8 -*- # vi:ts=4:et import sys import

使用Python实现网站图片抓取

1,Python环境 2,下面直接编写代码 import urllibimport reimport time def getHtml(url):page = urllib.urlopen(url)html = page.read()html = html.decode('utf-8')return html def getImgUrl(html):str_re = r'<img[^>]src[=\"\']+([^\"\'])[\"\'][^>]*>'

辉赞互联倾情推荐-面向搜索引擎的网站建设

很多seoer在做网站优化的时候都会遇到一个问题,那就是网站质量的问题.我也听说过很多seoer抱怨网站建的是如何如何的垃圾.其实想做好网站排名,第一步是有个根据网站优化所需条件建的站 也就是符合百度蜘蛛喜欢的网.如何面向搜索引擎建站,下面由辉赞互联给大家推荐,当然前提是得到程序的配合. 搜索引擎只是网站上一个普通的访客,对网站的抓取方式.对网站/网页的价值判断,也都是从用户的角度出发的,任何对用户体验的改进,都是对搜索引擎改进.对搜索引擎的优化,同时也会让用户受益.面向搜索引擎的网站建设,主要

二毛解读:百度蜘蛛每天都来爬取网站,却只收录首页是怎么回事?

昨夜,一位SEO友人问我一个这样的问题:百度蜘蛛每天都来爬取网站,却只收录首页,文章页及其他页面均未收录,问我是怎么回事? 其实这个问题非常普遍,可以从两个方面分析: 1. 网站内部优化是否完善: 2. 时间问题(文章够原创,站内优化够完善,迟早会收录). 我们主要来谈谈第一个问题:网站内部优化. 其实SEO是什么?SEO不是单纯的迎合百度及其他搜索引擎,他是时刻随用户的体验度来考量网站是否合适.在当今的互联网大环境下,暂时还是随着大多数用户的习惯性体验来对你的网站进行抓取,拍照,索引.网站优化