搜索引擎三个定律

第一定律 相关性定律

听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有 叫全文检索的。

那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。早期的搜索引擎结果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。

词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够派在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到了1996年开始有了改变。

第二定律 人气质量定律

1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就象拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,难得有一个静下心来认真思考问 题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web上的超级 链接联系起来了感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有 一所大学会在你本科的时候教这玩艺儿。

科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。在加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是 更多地依赖于超链分析。

我意识到这是一个突破性的东西,回去以后就很快总结了思路,于96年6月申请了这一方面的美国专利。1999年7月6号,美国专利和商标局批准了专利号为5,920,859的,以我为唯一发明人的专利。大约在96年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google的搜索引擎,Google的网站上至今仍然说他们的这项技术是Patent - pending(专利申请中),不知道美国专利局是不是还会再批这样的专利。Anyway,超链分析的方法98年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索 引擎才开始真正利用网络时代的检索技术。

世事难料,2000年起网络泡沫迅速破灭,各大搜索引擎要么遭人收购,要么推迟上市,所有使用人气质量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪儿?

第三定律 自信心定律

人气质量定律解决的还是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就 不是一个纯技术现像,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生存 和发展问题需要搜索引擎的第三定律--自信心定律。

1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GoTo.com (现已更名为Overture)的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GoTo检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有 人这样总结过。

今天,在网络业一片萧条,那斯达克风声鹤唳的时候,GoTo却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?究其原因,就是因为GoTo最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的,而CPM是从传统广告业借鉴过来的,没有考虑网络媒体即时性,交互性,易竞 价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。

http://www.jiaodaseo.com/topic/wen187.html

时间: 2024-11-07 17:03:44

搜索引擎三个定律的相关文章

人生的三个定律,左右人生命运的黄金定律

 1.借钱定律.当你遇到困难时,可以开口借钱的人不会超过10个. 2.联系定律.经常保持联系的人不会超过30个,其中包括第一条中的10个. 3.铭记定律.一生中能记住名字并且偶尔联系的人不会超过60个,其中包括第二条中的30个 世界很大,圈子很小,珍惜你拥有的,放弃你奢求的. 为什么7个人做1个人的工作反而更忙? 为什么优秀的人在一起却变成了乌合之众? 为什么合情合理的提升下属却招来更多不必要的事端? 为什么"贫者越贫,富者越富"? 为什么总是越怕犯错却偏偏犯错? 为什么一条道走到

IT从业者不可不知的三条定律

信息技术行业,也就是我们所说的IT行业,有着传统行业所未有的发展速度和模式,当然也有着它独特的发展定律.如果你是从事相关行业,下面讲到的三条定律,不可不知. 摩尔定律 比尔·盖茨曾跟通用公司老板说:如果汽车工业能够像计算机领域一样发展,那么今天,买一辆一车只需要25美元,一升汽油能够跑400公里.在传统行业这是不可能的事,而在计算机行业却是司空见惯的. 摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的.其内容为:当价格不变时,集成电路上可容纳的元器件的数目

袋鼠云数据中台专栏2.0 | 企业数字化建设三范式

袋鼠云数据中台专栏V2.0 数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论.希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程. 本专栏每周更新1-2篇,敬请期待~ 袋鼠云数据中台专栏V2.0 Vol.04,企业数字化建设三范式 1 笔者的职业生涯是从研发岗位开始的,

财经封面|百度的冬天

--> 财经封面|百度的冬天 提交 我的留言 加载中 已留言 财经封面|百度的冬天 2016-06-25 <财经>宋玮 LateNews by 小晚 LateNews by 小晚 LateNews by 小晚 微信号 LateNews 功能介绍 取名「LateNews」是因为朋友们都叫我小晚.专业财经记者.支持创业.投资和自由竞争,反对垄断与黑幕.言语犀利,得罪勿怪. "没有一家公司是被舆论和公关危机打倒的,只有在战略.产品.公司文化等一系列环节中出现了系统性风险时,这家公司才

竞价账户优化每日工作流程

竞价账户优化每日工作流程完成分析,主要包括:账户数据统计.账户数据分析.关键词优化三个大的方面.规范的工作流程和操作分析可以在较大程度上降低因为人为原因导致的不必要损失.一个好的过程,不一定能产生好的结果.但一个不好的过程,一定不会产生好的结果. 一.账户数据统计 账户数据统计包括:凤巢后台数据.百度统计数据.商桥对话数据. 1.凤巢后台数据: 1)搜索推广点击.消费: 2)网盟推广点击.消费:两者汇总账户总点击.消费. 2.百度统计数据:该数据统计主要至指来源分析,其中包括: 1)全部来源[P

【人类观察所】&quot;当代人&quot;正经历的生活

一."即时满足"的互联网 "轻微烦躁,偶尔自燃,当代生活多数时刻的心情基调." 如果你出生于上个世纪,应该能明白木心的<从前慢>里的 「从前的日色变得慢,车.马.邮件都慢」 这种情怀是从何而来,但如果你是一位出生在互联网时代的 「网络原住民」,对这首诗里形容的生活,你很可能已经彻底失去了感受它的机会. 买东西有快递,吃饭叫外卖,上网靠智能手机,工作用电脑,一切都随时供应.立等可取.只要是技术能解决的问题,没有什么需要你等太久. 一个在最近几年相当常见的讨

百度董事长李彦宏:决定成功的基本要素是什么?

很多人天真的认为,只要掌握一流的技术,认真工作.务实,然后然后离成功的目标不远了.其实,如果你这样单纯的认为成功是完全靠技术来实现目标的,那么你就大错特错了.一个创业成功的人必须符合三点定律:一个百度搞技术的人.一个腾讯稿产品的人.一个阿里搞运营的人. 此前,我们一直天真的认为,只要掌握一定技术,就能成功,但即便成功,看你维持时间的长短.最好的企业,有的也不过三十年的寿命.如果一家企业能够活过百年以上,那么这家公司不仅仅是技术先进,而是有很多因素在内的企业文化在使劲. 真正能从文化解读出来的成功

神逸之作:国产快速启动软件神品ALTRun

http://xbeta.info/altrun.htm 作者: ET民工和塞壬 日期: 2010-09-15 分类: windows 标签: quick-launch <神逸之作:国产快速启动软件神品ALTRun> 本文作者:塞壬 2010年8月首发于善用佳软 目录一.ALTRun软件简介1.1 界面观赏1.2 界面讲解二.ALTRun的基本使用方法2.1 超多方式执行快捷项(入门必读小节一)2.2 迅捷方便的定位方法(入门必读小节二)2.3 过滤筛选和智能匹配2.4 人性化的匹配设定2.5

SEO学习

一.什么是SEO       SEO是由英文Search Engine Optimization缩写而来, 中文意译为“搜索引擎优化”!SEO是指通过对网站进行站内优化(网站结构调整.网站内容建设.网站代码优化等)和站外优化,从而提高网站的网站关键词排名以及公司产品的曝光度. 二.主流搜索引擎 三.搜索引擎工作原理   搜索引擎的工作过程大体上可以分成三个阶段: 3.1  爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面 HTML 代码存入数据库. 3.2  预处理 索引程序对抓取来的页面