二毛解读:百度蜘蛛每天都来爬取网站,却只收录首页是怎么回事?

昨夜,一位SEO友人问我一个这样的问题:百度蜘蛛每天都来爬取网站,却只收录首页,文章页及其他页面均未收录,问我是怎么回事?

其实这个问题非常普遍,可以从两个方面分析:

1. 网站内部优化是否完善;

2. 时间问题(文章够原创,站内优化够完善,迟早会收录)。

我们主要来谈谈第一个问题:网站内部优化。

其实SEO是什么?SEO不是单纯的迎合百度及其他搜索引擎,他是时刻随用户的体验度来考量网站是否合适。在当今的互联网大环境下,暂时还是随着大多数用户的习惯性体验来对你的网站进行抓取,拍照,索引。网站优化分为两部分:站内+站外。站内就是网站结构调整+页面HTML调整,站外就是外链建设+丰富的社交圈。

网站只收录首页,可以说这没什么,因为如果一个网站连首页都不能收录,那实在是太失败了。为什么没有抓取内页,自己也要好好想想原因。

比如:首页是否用了大量的FLASH、JS做脚本装饰,是否给搜索引擎留了通往内页的入口,我们知道,蜘蛛很不愿意看到Frame,不是它不喜欢,而且它看不懂,它能做的只是一条条的爬取,你首页有链接可供它点击,它才有可能进入到你的内页,一层层的广度爬行。如果你使用了大量的框架,脚本,完全将带动器封闭在你的框架里,那么蜘蛛无法进入,它只能一次次的在你的首页徘徊。

新站不建议使用这种网站结构,最好调整一下,首页尽量避免动态显示(不是指URL)。

再看下面:

已经做了H标签加粗,却没有设置内链,指向文章内页,要知道,蜘蛛是非常看中H标签的,它非常想要了解,你里面到底写的什么,但是它进不去,你只是在最后的“阅读全文”给它留了入口,它没那么大的耐心,对它而言,H标签才重要的多,所以要学会利用自己的平台资源,切勿浪费。

下面是我给你的建议:

将此页面作为博客首页,遵循蜘蛛的爬取习惯规则,可以这么说,这可以最大程度加深你的博客文章被抓取,但记得一些必要的内链要做好,平时要多看一些软文写作方面的教材,不要一味的贴近教材,在写之前,要思考一下,用户会不会搜索你写的文章标题,这篇文章写出来,对互联网的意义有多少,是不是用户所需求的,需求量大不大,这些都是长尾词要考虑的流量因素,还有,尽量图文并茂(包括发外链)。

再稍微规划一下,看下面这张图:

一看就明白,在此处调用一个留言板块,站点基本成型。

最后,来看一下robots文件:

robots里有些文件没有必要写上去。

两个重要的建议:

1. 在robots的最下面写上网站的地图地址,两个都要写。

参考样式:

Sitemap:  http://domain/sitemap.html

Sitemap:  http://domain/sitemap.xml

2. 新站,自己在发外链的事情,请带上自己网站的地图链接,不说原因,这很重要。

以上就是二毛自己对“百度蜘蛛每天都来爬取网站,却只收录首页是怎么回事?”的个人解读,希望大家从中能够学到对自己有用的一处或两处。

郑重声明:二毛SEO学习博客所有文章均为原创,转载或引用请表明出处,谢谢合作。

时间: 2025-01-06 10:46:52

二毛解读:百度蜘蛛每天都来爬取网站,却只收录首页是怎么回事?的相关文章

Python 利用 BeautifulSoup 爬取网站获取新闻流

0. 引言 介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup:   4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库* ( BeautifulSoup 的中文官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 代码介绍 实现主要分为三个模块: 1. 计时

如何使用robots禁止各大搜索引擎爬虫爬取网站

ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面) 2.下面我们就来说一说如何设置robots.txt文件 1).robots.txt文件必须是放在文件根目录上: 例如: ├─admin │  └─templates │    

python爬取网站美女图片

今天周五,项目刚刚上线完,有些时间,闲着无聊,继续复习爬虫,这次打算爬取网站的美女图片.得先找到目标,然后目标网站还不会反爬虫,因为自己只是小白,好了开始. 寻找目标,发现了目标,哈哈 http://www.meizitu.com 里面图片按专题分类.先看下页面找出相关源码 页面 源码 即只要抓出来图片集的link跟图片集里面的link对应的jpg就可以了, 可以用beautifulsoup或者正则匹配,我这里用正则匹配需要的link.然后遍历整个网站就可以了 请看源码解释 #!bin/pyth

全网爬取6500多只基金|看看哪家基金最强

.理财是个非常重要的技能,无论是高高在上的成功人士还说大众老百姓都必须要掌握的技能,俗话说"人不理财,财不理你".理财的方法有很多,我个人比较喜欢买基金,而基金又有很分很多种:股票型,混合型,债券型,QDII还有分级基金,指数基金,货币基金,到底哪家最强的-- 我们码农是靠手艺吃饭的,不就是数据分析吗,简单自己动手写个程序,分析一下.整个的内容我会分几篇来写,今天是思路篇,这算是一个小小的综合项目,前面讲了这么多Python的基础知识,还有数据分析的内容,来实战一下吧   全网爬取思路

利用linux curl爬取网站数据

看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在结果嘛,呵呵. 2.首先利用curl工具后者wget工具把整个网站数据爬取下来 curl 网址 >wangzhan.txt 3.查看wangzhan.txt文件,找出规则,看到数据是存放在哪个地方,本人是把txt文件拷到本机上用UE打开方便查看.通过查看文件,我发现数据是存储在"var aut

使用scrapy爬取网站的商品数据

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫. 先分析商品页面,在http://www.muyingzhijia.com/主页面上,有类链接有用的链接,即:http://www.muyingzhijia.com/Shopping/category.aspx?cateID=11和http://w

【python爬虫】根据查询词爬取网站返回结果

最近在做语义方面的问题,需要反义词.就在网上找反义词大全之类的,但是大多不全,没有我想要的.然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html,还行能把"老师"-"学生","医生"-"病人"这样对立关系的反义词查出来. 一开始我想把网站中数据库中存在的所有的词语都爬出来(暗网爬虫),但是分析了url的特点: http://fanyici.xpcha.com/5f7x86

百度地图POI数据爬取,突破百度地图API爬取数目“400条“的限制11。

1.POI爬取方法说明 1.1AK申请 登录百度账号,在百度地图开发者平台的API控制台申请一个服务端的ak,主要用到的是Place API.检校方式可设置成IP白名单,IP直接设置成了0.0.0.0/0比较方便. Place API 提供的接口用于返回查询某个区域的某类POI数据,且提供单个POI的详情查询服务,用户可以使用C#.C++.Java,Python等开发语言发送请求,接收json.xml的数据.关于Place API的具体使用可以参考:Place API Web服务API 1.2爬

Python模拟登录后爬取网站内容(小说)

最近有个好友让我帮忙爬取个小说,这个小说是前三十章直接可读,后面章节需要充值VIP可见.所以就需要利用VIP账户登录后,构造Cookie,再用Python的获取每章节的url,得到内容后再使用 PyQuery 解析内容. 注意:构造Cookie的过程中,需要你在 Chrome/Firefox 登录,然后自己在控制台查看 cookie,然后手动加入. 第一步:手动构造cookie,绕过登录 [我这里不是破解账户,想破解请出门左拐] 1 #version 2.7 2 3 #!/usr/bin/pyt