谈《百度搜索引擎网页质量白皮书》

今年上半年,百度发布了《百度搜索引擎网页质量白皮书》,官方给出的发布理由是“此次推出《网页质量白皮书》,目的是开放百度在网页质量方面的判断标准,给站长提供参考,希望有更多、更优质的内容产生,满足搜索引擎用户的需求,同时为站长带来流量,实现共赢。”

几乎可以肯定,用户在浏览网页时,使用最多的网站,绝大多数是搜索引擎,如百度、搜狗、360以及现在几乎没法用的谷歌。用户将自己的需求传递给搜索引擎,搜索引擎帮助用户在整个网页库中搜寻用户希望知道的信息,并将网页链接呈现给用户。这样,用户可以通过搜索引擎确定的结果来获取所需信息。

在这里,很关键的一点就是,如何将与用户输入的关键字最相关的网页反馈给用户,或者说是质量最高的网页反馈给用户。这里,就涉及到网页质量。

白皮书中是这样定义“网页质量”的:网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等因素,共同决定网页质量的高低。

百度的搜索引擎所实现的功能就是将与用户输入关键字最相关的网页质量最高的网页反馈给用户。为此,百度搜索综合用户对不同网页的实际感受,制定了一套评判网页质量的标准,基于这个标准,对百度搜索的收录、排序、展现环境进行调整,给高质量的网页更多的收录、展现机会,同时对一些影响用户体验、欺骗搜索引擎的恶劣低质网页进行打压。

白皮书中对衡量网页质量的维度进行了详细说明。

百度搜索引擎在衡量网页质量时,基于三个维度特征,分别是内容质量、浏览体验、可访问性

首先是内容质量,其着眼于主体内容的好坏,以及主体内容是否可以让用户满意。另外,在内容质量方面,还分为许多子维度,如内容完整、信息真实以及安全等。

然后是浏览体验,关于浏览体验,白皮书中给出了“对网页主体内容的获取成本”的概念。用户对网页主体内容的获取成本与浏览体验成反比。面对内容质量相近的网页,浏览体验佳者更容易获得更高的排名。浏览体验主要表现在网页内容排版和广告影响上。

最后是可访问性。百度搜索引擎希望尽可能为用户提供能一次性直接获取所有信息的网页结果。因此,当一个网页中的可访问性很差时,搜索引擎会视情况调整其展现几率。百度搜索引擎从正常打开、权限限制、有效性三方面判断网页的可访问性。

另外,对于白皮书中提及的互联网网页资源现状,文章中是这样说的:

为了保证搜索质量、提高用户使用满意度,百度搜索引擎每周都会进行网页质量抽样评估。然而从近一年的评估数据中我们发现,优质网页的绝对数量非常少,且几乎没有增长;普通网页的占比在下降,相应的,质差网页的比例却有明显上涨。截至2014年5月,统计数据显示,在百度网页搜索发现的海量网页中,优质网页仅占7.4%,质差网页高达21%,其余普通网页为71.6%。

从上面的数据我们应该从两个方面去思考:

1、目前互联网的整体网页质量都是很差的,对于整个互联网行业来说,在网页资源的整合和质量提高上任重而道远。

2、对于从事互联网的从业者来说,或者是创业者来说,这种数据后面所蕴含的是巨大的商机和潜力。将网站的网页质量提高,注重内容,优化用户体验,改善网站访问速度,通过这些方法,百度搜索对网页的排位就会上升,而这些带来的不仅仅是广告收入的增加,更有网站的知名度。这些影响,对于互联网从事者和创业者来说是至关重要的。当然,通过商业买卖交易来实现搜索引擎的用户展现优先权也是完全可行的,但那是土豪行为,对于很多小网站来说还是很有压力的。

在上文中,提到了网页排位通过商业买卖交易来提升,以及通过扎扎实实提高网页质量来实现网页排位的提升。个人的看法是,一个网页质量高的网站是前提。当我们在整个行业有一个很好的idea时,将该idea转化为质量高的商业网站是首要的,注重内容的丰富性,注重浏览体验(排版要井井有条,信息层级扁平化),通过改善服务器性能提高网站访问速度,这些是一个好网站的基础。

最后,附上百度搜索引擎给站长的建议:

1、设计网页时主要考虑的是用户,而非搜索引擎;

2、永远将用户体验放在首位;

3、根据用户需求制作内容;

4、多考虑如何让自己的网站具有独特价值;

5、将目光放长远,滥放广告弊大于利;

6、及时删除低质内容;

7、不要企图用任何方式欺骗用户和搜索引擎。

贴上自己觉得很不错的网站的一张图片(快课网):

PS.自己接触互联网的时间很短,也就是从大学以来的三年多时间,对于互联网的认识还比较肤浅,在此仅仅是抛砖引玉。

谈《百度搜索引擎网页质量白皮书》

时间: 2024-10-05 17:46:52

谈《百度搜索引擎网页质量白皮书》的相关文章

浅谈百度搜索引擎分词技术

http://t.qq.com/lishuixiaojiena http://t.qq.com/p/t/445920036433335 http://t.qq.com/wuxixiaoji7846 http://t.qq.com/p/t/466143038709124 http://t.qq.com/jiangyinxi1660 http://t.qq.com/p/t/463343034063965 http://t.qq.com/xuzhouxiao6711 http://t.qq.com/p

谈谈百度为什么要推出《百度网页 搜索质量白皮书》

百度正在做一些事情,并且希望成为这样的老师.老师的学生就是大量的网站人员,也就是苦逼的网页设计师和SEOer.很长时间,百度看不上这群人. 你们不为我了带来利润,我的利润都是依靠竞价客户带来的,优化人员都是通过自主的优化实现网站排名的提升,对于百度来说,你们没有价值.所以,我无须讨好你们. 你们反倒损害了我的客户体验.大量的垃圾信息.虚假信息以及过载信息,让搜索用户使用搜索的体验大为降低,甚至恶劣,比如说通过搜索进行优化的欺诈网站.所以,我无需帮助你们. 我的很多产品失败,你们也有原因.如果不是

具体实例谈google和百度搜索引擎

谷歌彻底被禁让人惋惜,百度的“道德”,能力让人堪忧. 对于程序员来说,使用百度就代表被他折磨. 希望天朝的国民早日醒悟过来,切不可闭关锁国,妄自尊大. 中国已经拉下了无数步,如果还继续这样会不会被拖死. 具体实例谈google和百度搜索引擎

百度搜索引擎中的快照及快照更新机制

百度搜索引擎中的快照及快照更新机制 1.什么是百度快照? 如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题.每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”.百度速度较快,您可以通过“快照”快速浏览页面内容. 不过,百度只保留文本内容,所以,那些图片.音乐等非文本信息,快照页面还是直接从原网页调用.如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示.所以,针对一些关闭掉或者无法访问的网站,如果想看到部分内容是可以通过百度快照实现的哦

百度搜索引擎排名原理、因素

再有五六天就开学了,查找有关搜索引擎排名,以下这篇文章还是比较不错的,先赞一个^_^! 搜索引擎排名定义: 在搜索引擎里输入一个关键字,通常得到很多搜索结果,这些搜索结果的排名有先后之分,这就是搜索引擎排名 搜索引擎的排名原理 搜索引擎优化简称SEO,指的是在符合用户友好性及搜索引擎算法的基础上,使用网站内或者网站外的优化手段,使网站在搜索引擎的关键词排名提高,从而获得目标搜索流量,进而建立直接销售或建立网络品牌. 搜索引擎的排名基本上分为四个步骤: 1. 爬行和抓取 搜索引擎派出一个能够在网上

搜索引擎网页排序算法

2.1基于词频统计——词位置加权的搜索引擎 利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术.其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好. 1)词频统计 文档的词频是指查询关键词在文档中出现的频率.查询关键词词频在文档中出现的频率越高,其相关度越大.但当关键词为常用词时,使其对相关性判断的意义非常小.TF/IDF很好的解决了这个问

百度面试-网页搜索部

今天参加了百度的面试,面试过程安排过程中出了些问题,上午面试完成后竟然要等到下午4点安排接下来的面试,安排的不是很紧凑,最好让每个面试者的连续面试安排在一起,面试挺消耗精力了.不过周五赶上百度的summer party,在大厅等待的时候看到很多美女-_-!百度的前台妹纸们真是很漂亮嘛. 一面:面试官很清瘦,个头很高.后来发现人很nice,很随和~,至少面试过程中让人感觉很舒服.一些我回答出来的问题可能记忆的不是很清楚了,主要记录一些我答的不是很好的问题.首先自我介绍,不过刚刚开始就被打断开始进行

百度搜索引擎变现策略指标体系

下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程. 为什么需要商业变现策略指标体系 一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长.当流量,用户量做到一定程度时,就会考虑商业变现.例如今日头条,美丽说,高德地图这样的产品现在都开始商业化变现.而要从变现效果,效率衡量整个系统,以及监控技术策略对系统变现的贡献时,就需要建立一套完善的策略指标体系监控系统当前的状况, 发现系统策略效果

百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-笔记篇

需要结合:<百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-代码篇>一起学习 #百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量 #知识点 ''' 1 网络爬虫 2 Python开发网络爬虫 3 requests库 4 文件操作 ''' #项目结构 ''' key.txt                 关键字文档,根据这个文档中的关键字进行爬取 demo.py               爬虫文件内容了 res/软件开发.txt    爬虫采集来的URL '