博客SEO-搜索引擎工作原理简介

资源推荐

Zac出版的《SEO实战密码》是SEO入门的好书,可惜我在当当网买的电子书受DRM版权保护,无法与大家分享。

我在网上找到了此书的  了解搜索引擎  章节,非常详细,且容易理解。链接如下:

http://www.21jn.net/seo/zac/zac.html

前言

SEO由英文Search Engine Optimization缩写而来,中文意译为“搜索引擎优化”。SEO是指从自然搜索结果获得网站流量的技术和过程,是在了解搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量。博客SEO的目的,就是要提升博客的访问量和人气。

要想做好SEO,就必须简单了解搜索引擎工作原理以及自然排名机制。

搜索引擎工作过程非常复杂,我这里只简单介绍搜索引擎是怎样实现网页排名的,并且我只是针对注册类博客的SEO需要了解的知识。本文章介绍的内容相对于真正的搜索引擎技术,来说只是皮毛,不过对博客的SEO已经足够用了。我尽量最容易理解的方式,并且不设计到算法和深奥的理论知识。

搜索引擎的工作过程大体上可以分成三个阶段:爬行和抓取、预处理、返回搜索结果。

一、爬行和抓取

搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

搜索引擎蜘蛛是怎样抓取网页的呢?

发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环。

首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接发现链接。其方式有深度优先和广度优先。当然我们注册的博客基本不考虑网站目录结构的问题。通常网站结构通常分为以下三个层次:首页——频道——文章页。理想的网站结构应该是更扁平一些,从首页到内容页的层次尽量少,这样搜索引擎处理起来,会更简单。

对于博客SEO,要想让蜘蛛抓取我们的文章,就必须为文章导入链接。无论是外部链接还是同一个博客的内部链接,都可以增大蜘蛛发现网页并爬行的概率。否则蜘蛛根本没有机会知道页面的存在。

比如:我写系列博客喜欢把相关文章的连接写在博文里,虽然开始我的文章没有一篇被百度收录。一天,有一篇文章上了http协议分析工具上了博客园-原创精华区,因为其页面权重高,百度蜘蛛抓取也就越频繁。随着这一篇博文的收录,我的所有博文就都被百度收录了。

二、预处理

索引程序对抓取来的页面数据主要进行关键词提取、生成倒排索引、页面PageRank值计算、关键词与页面相关性、TrustRank值计算等处理,以备排名程序调用。这是搜索引擎能在极短时间内返回搜索结果的关键。其中我们最关心的是PR值和相关性。

PageRank原理

了解PageRank也就是理解为什么SEO要求一定数量高质量的外链。

PageRank可以形象的比喻成:一个页面的排名是由链接来"投票"的结果,并且是权重不等的投票,优秀的网站为你投的一票会为你的排名更靠前,垃圾网站就没啥用。因此高质量的外链是对SEO是很有帮助的。

经过页面PageRank值计算之后,网页会得到一个与页面主题(内容)无关的排名。

PageRank值决定因数:(来自维基百科)

PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites。

上面这段话的大意是:PR值是通过指向该页面链接的数量和质量来决定。

链接的质量怎么理解?

假设一个网页PR值较高(重要性高),那么出现在该网页内的连接质量就比较好。通常一些权威网站PR值较高。

这也就意味着网页之间的重要性会传递。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。

关键词与页面的相关性

了解相关键词与页面的相关性就是要理解为什么SEO要求做好文章的锚文本以及关键字优化。

影响页面与搜索关键词相关性的因素有链接分析、词频及密度、关键词位置及形式、关键词距离等因素,其中链接分析占了相当大的比重。

不得不提的是百度创始人李彦宏的超链分析专利。

建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。

根据这些链接数据,尤其是锚文字,计算出基于链接的网页的相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。

页面有越多以搜索词为锚文字的导入链接(这句话得仔细体会),说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等,比如一个服装类的网站有指向java语言学习页面的连接,那么这个页面和搜索关键词的相关性就低。

三、返回搜索结果

用户输入关键词后,排名程序调用索引库数据,匹配关键词,然后按一定格式生搜索结果页面。这是因为前面的预处理,搜索引擎能在极短时间内返回结果。

百度搜索结果显示格式

自然结果格式解析

百度自然界结果的一条记录格式如下:

第一行是页面标题,通常取自页面HTML代码中的标题标签(Title Tag)。这是结果列表中最醒目的部分,用户点击标题就可以访问对应的网页。所以页面标题标签的写法,无论对排名还是点击率都有重要意义。

第二、三行是页面说明。页面说明有的时候取自页面HTML中的说明标签(DescriptionTag),有的时候是从页面可见文字中动态抓取相关内容。所以显示什么页面说明文字是用户查询时才决定的。

第四行是百度快照和百度口碑的好评率,注意这个好评率是整个网站的好评率,而不是单个网页。

时间: 2024-08-14 16:02:43

博客SEO-搜索引擎工作原理简介的相关文章

2-2 搜索引擎工作原理简介

搜索引擎的工作过程大体上可以分成三个阶段: 1.爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库. (1)蜘蛛 (2)跟踪链接 (3)吸引蜘蛛 (4)地址库 (5)文件存储 (6)爬行时的复制内容检测 2.预处理:索引程序对抓取来的页面数据进行文字提取.中文分词.索引等处理,以备排名程序调用. (1)提取文字 (2)中文分词 (3)去停止词 (4)消除噪声 (5)去重 (6)正向索引 (7)倒排索引 (8)链接关系计算 (9)特殊文件处理 3.排名:用户输入关键词后,

【SEO系列教程】第一部分:SEO概念-搜索引擎工作原理

从今天开始,二毛为大家更新SEO系列教程,今天更新第一部分:SEO概念,主要讲述如何学习SEO这门课程以及搜索引擎工作原理. 本次课程不会一五一十的讲解SEO的全部细微概念,在讲到一些我们已经熟知的SEO概念,我会一句带过,如果大家有不理解的地方,请在下面跟帖,我会第一时间恢复大家,还望谅解. 另外说明一下,SEO系列教程在每周三更新,其余时间大家可以在下面自由交流,希望这套SEO教程能够对大家的SEO学习有所帮助,请大家随时关注二毛博客最新动态,谢谢. 好了,下面我们进入正题: 今天的知识点:

WEB前端-搜索引擎工作原理与SEO优化

一.搜索引擎工作原理 搜索引擎的工作分为三个阶段,即爬行,索引和检索 1.爬行  搜索引擎具有网络爬虫或蜘蛛来执行爬网,每次抓取工具访问网页时,它都会复制该网页并将其网址添加到索引中. 在“蜘蛛”抓取网页内容,提炼关键词的这个过程中,就存在一个问题:“蜘蛛”能否看懂.如果网站内容是 flash 和 js,那么它是看不懂的.相应的,如果网站内容是它的语言,那么它便能看懂,它的语言即 SEO 2.索引  此阶段,爬网程序会创建搜索引擎的索引.索引就像一本巨大的书,其中包含爬虫找到的每个网页的副本.如

博客SEO优化

SEO优化也就是搜索引擎优化,搜索引擎优化也就是博客内容被搜索引擎收录及优先排序,以此增加博客的点击率和曝光度,最终提升博客的综合能力.写博客的人,内容不仅要对用户友好,让大部分人都能看懂,而且也要对搜索引擎友好.这里主要介绍下卢松松常用的博客SEO优化技巧. 1:博客要经常保持更新,文字始终紧紧围绕关键字,围绕网站主题. 2:SEO优化重点以文章内容页优化为主. 3:适当给每个页面增加keyword(关键词).Description(页面描述).robots(搜索引擎抓取器)等标签. 4:在新

百度搜索引擎工作原理

根据上图解释的搜索引擎工作原理,笔者要一步一步为大家解释,讲解.进行完整的seo培训服务. 1.www:我们的互联网,一个巨大的.复杂的体系; 2.搜集器:这个我们站长们就都熟悉了,我们对它的俗称也就是蜘蛛,爬虫,而他的工作任务就是访问页面,抓取页面,并下载页面; 3.控制器:蜘蛛下载下来的传给控制器,功能就是调度,比如公交集团的调度室,来控制发车时间,目的地,主要来控制蜘蛛的抓取间隔,以及派最近的蜘蛛去抓取,我们做SEO的可以想到,空间位置对SEO优化是有利的: 4.原始数据库:存取网页的数据

博客恢复更新 工作环境转移到Linux

嗯, 回来了. 工作了, 以后学习和写博的时间只能靠挤了, 相信挤一挤总会有的.最近的一些计划: 重拾基础 玩好linux wid, 2014-04-27 博客恢复更新 工作环境转移到Linux,布布扣,bubuko.com

Linux驱动程序工作原理简介

转自:http://blog.sina.com.cn/s/blog_55465b470100ri1e.html 一.linux驱动程序的数据结构      二.设备节点如何产生?      三.应用程序是如何访问设备驱动程序的?      四.为什么要有设备文件系统?      五.设备文件系统如何实现?      六.如何使用设备文件系统?      七.具体设备驱动程序分析      1.      驱动程序初始化时,要注册设备节点,创建子设备文件      2.      驱动程序卸载时要

WordPress博客系统搜索引擎优化seo全攻略方法

WordPress的文章.评论等很多数据都是存放在数据库的,所以搭建wordpress网站的时间,网站的空间不需要多大,而数据库一定要充足,而在WordPress数据库中主要使用 wp_posts 表来存储日志,页面,附件,导航菜单等数据,根据使用的时间越来越长,堆积的数据越来越多,从而运行起来也越来越慢,那么我是十分有必要对 WordPress数据库来进行整体的优化下. 温馨提醒优化之前切记先备份下数据 删除所有日志修订 影响wordpress运行速度的根源在于日志的修订记录,一百多篇文章会有

我的博客园,我的简介

本人名为成笑笑,男,20岁,现就读于青岛职业技术学院物联网应用技术专业,大二学生.现任青岛职业技术学院物联星空社团社长一职.社团归类为专业技能类,活动主要针对于对物联网前沿科技的研究与学习.目前社团主要有两个比较重要的部门,软件研发部和硬件开发部.我进入大学之后积极参与社团活动加入了软件研发部.学习了C语言和C#相关编程语言的学习.也有一年多C#学习的经历.做过部分小项目,也算是有一点自己的见解. 今在博客园开通博客,主要分享从入门到项目实战的文章.一是为了能够把我所领悟的知识点分享给大家,让更