蜘蛛抓取网站的时候,抓取了不存在的页面

SEOer需要经常查看网站的服务器日志,从而掌握蜘蛛爬取了我们网站的什么地方,哪个页面。但是有时候却发现蜘蛛爬取了一些我们网站并不存在的页面,今天SEO教程就讲解下为什么百度蜘蛛会爬取我们网站没有的页面。

1、蜘蛛是怎么发现我们网站的链接的?

我们都知道,蜘蛛是沿着链接爬来爬去的,他会自动提取网站中所有的链接,保存入库,然后进行爬取,这也就是为什么我们觉得网站的收录少了或者刚发布的文章没 有被收录,我们就会说“引蜘蛛”了,其实引蜘蛛就是发外链了,当这条链接呗蜘蛛发现之后,他就会进行爬取,然后通过一系列复杂的算法之后,决定是否放出该 页面的收录。

2、为什么会爬到不存在的页面?

一般情况下,有这么几个问题

a、被对手恶意刷外链,也就是说竞争对手恶意的给你发了很多的不存在的页面链接,当蜘蛛发现之后就会来爬取

b、以前做的外链,后来由于网站改版而某些链接没有及时的去除,蜘蛛定期回访的时候爬取了这条链接

c、此种仅限老域名,之前的网站结构和我们现在的网站结构不一致,也类似于b中的说法

d、robots文件没有对蜘蛛进行限制

e、程序的原因,导致搜索引擎蜘蛛掉入黑洞

f、url提交或者ping给百度地址有误

蜘蛛爬取不存在的页面,一般情况下都是由于这些问题导致的,其中最主要的原因就是外链部分,所以我们要经常性的去检查下我们网站的外链情况。

这些方面综合来讲,一般我们只需要这么做,基本就能够减少这种情况的发生,如果是链接导致的,那么就去百度站长平台使用外链拒绝工具拒绝掉,并提交网站的死链接,同时使用robots屏蔽蜘蛛抓取这些内容;如果是程序问题,就修复程序。

如果你想了解更多的相关知识和内容,e良师益友网为你推荐相应的seo高级教程

时间: 2024-12-21 08:12:52

蜘蛛抓取网站的时候,抓取了不存在的页面的相关文章

如何使用robots禁止各大搜索引擎爬虫爬取网站

ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面) 2.下面我们就来说一说如何设置robots.txt文件 1).robots.txt文件必须是放在文件根目录上: 例如: ├─admin │  └─templates │    

抓取网站数据不再是难事了,Fizzler(So Easy)全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

Fizzler(So Easy)关于抓取网站数据,不再困难

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

建站指南:百度认为什么样的网站更有抓取和收录价值2012-06-20

建站指南:百度认为什么样的网站更有抓取和收录价值2012-06-20 百度认为什么样的网站更有抓取和收录价值呢?我们从下面几个方面简单介绍.鉴于技术保密以及网站运营的差异等其他原因,以下内容仅供站长参考,具体的收录策略包括但不仅限于所述内容. 第一方面:网站创造高品质的内容,能为用户提供独特的价值. 百度作为搜索引擎,最终的目的是满足用户的搜索需求,所以要求网站内容首先能满足用户的需求,现今互联网上充斥了大量同质的内容,在同样能满足用户需求的前提下,如果您网站提供的内容是独一无二的或者是具有一定

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引

原文地址: http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html Nutch 2.2.1发布快两月了,该版本与Nutch之前版本相比,有较大变化,特别是与MySQL联合应用的安装和配置过程有不少地方容易出错.本人在安装过程中也遇到了不少麻烦,大多问题通过baidu和google也没有找到解决方法,自己只能通过看代码和分析日志并试错,最终搞定了所遇到的各种问题,现将重要安装和配置过程整理如下. 1.  MySQL数据库配置 l  my.ini配置

C# 抓取网站数据

项目主管说这是项目中的一个亮点(无语...), 类似于爬虫一类的东西,模拟登陆后台系统,获取需要的数据.然后就开始研究这个. 之前有一些数据抓取的经验,抓取流程无非:设置参数->服务端发送请求->解析结果 1.验证码识别 系统的验证码只包含数字,不复杂,所以没有深入研究. http://www.cnblogs.com/ivanyb/archive/2011/11/25/2262964.html 这个完全满足我的需求. 2.用户名.密码是用户提供的. 这里面有一个证书,每次请求都要带上. 证书获

爬虫,可用于增加访问量和抓取网站全页内容

爬虫,可用于增加访问量和抓取网站全页内容 爬虫道德规范: 1.不让爬的咱不爬 2.让爬的咱不能一直爬 使用爬虫提高文章访客说明: 1.本爬虫使用代理IP 2.伪装浏览器 3.粘贴地址即可使用 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py 5.下载原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py # codin

剑走偏锋,robots.txt快速抓取网站的小窍门

在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门. 写爬虫有很多苦恼的事情,比如: 1.访问频次太高被限制: 2.如何大量发现该网站的URL: 3.如何抓取一个网站新产生的URL,等等: 这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题,但是绝大部分公司都不具备这个条件的. 我们在工作中写的爬虫大多是一次性和临时性的任务,需要你快速完成工作就好,当遇到上面情况,试着看下robots.txt文件. 举个栗子: