首先,最值得学习的不是视频中的知识,而是讲者的这几句话
1.本视频中的SEO的方方面面都牵涉到了,只听一遍会增长你的见识,但是更需要再花更多时间去挖掘更多知识和将知识系统化。这当然对于所有知识的学习都很有借鉴意义
2.SEO是一个既前卫又很活跃的学科,它贵在新,贵在经验的积累、信息的及时。很多计算机软件方面的知识都是这样,一方面要扎实的基础,另一方面也不要忘记更跟随知识的更新
以下的笔记是很不全面的,所以要想系统的学好SEO的知识,需要自己在去主动地通过各种途径去学习搜索引擎的原理、爬虫的工作原理……更多的扩展知识
SEO:搜索引擎优化
SEO最大的好处:流量。在网上找信息,越来越多的人是通过搜索引擎,80%的人只会看搜索结果的第一页,40%的人只会看第一页的前四条,只有大概20%的人会往后再翻几页,如果你的网站搜索结果比较靠后,那么你的网站的访问流量将会受到很大的影响
SEO目的:为了让网民更容易找到你的网站或网页
总体介绍:开篇;搜索引擎介绍(重点介绍Google);搜索引擎优化(讲解搜索引擎的爬虫是如何爬行Internet网的;搜索引擎是如何排序搜索结果的;什么是可取的SEO,什么是不可取的SEO;自然排名和竞价排名的对比)
优化策略:关键字;关键字工具;网页分析;搜索引擎提交
注意事项:域名、链接、Flash的使用、CSS;结尾
使用Google搜索时候的搜索规则、小技巧:+、-、“”的使用
!Google的创始人写的“The Anatomy of a Large-Scale Hypertextual Web Search Engine”的论文,里面讲解了关于搜索引擎的秘密,一定让你受益匪浅
!Google的排序方法,PageRank
黄页和搜索引擎:黄页是人工编纂的,更新慢数量少,搜索引擎是自动爬行的;搜索引擎检索的是网页,黄页检索的是网站;与搜索引擎收录相比,被黄页收录的门槛比较高;黄页为搜索引擎提供数据,被黄页收录好是有好处的,而且依然有不少人在使用黄页。所以做SEO不能忽略黄页的问题
内容广告和搜索广告:
搜索引擎爬虫:
网页快照:
搜索引擎如何排名网页。它基本上会看三样东西:1.网页内容;2.关键字出现的频率和浓度;3.网站流行度
白帽子SEO:认真看Google的网站管理员支持中心,而且在不断更新。有些不该做的事情如果做了反而影响网站的搜索排名
黑帽子SEO:用作弊的方法达到搜索引擎的排名优化,不要这样做
什么是关键字:当你搜索的时候,在输入框所输入的那些内容就是关键字;对于网站来说,能对你网站的内容进行最相关最简洁描述的字词就是关键字
关键字挑选的建议:先列出一些你自己认为的关键字;查看你网站统计或服务器日志;参考别人的意见(潜在客户、同事……);用优化工具
stop words:那些太常用的,没什么明确含义的,会被搜索引擎忽略的字,比如the、that……
长尾理论
关键字工具:wordtracker工具、keyword discovery工具、
HTML和SEO的关系很大:
1.网页的title,即<title>标签,对于SEO是最重要的,尽量包含这页的关键字,告诉别人这个网页是做什么的,不能太长也不能太短。intitle:运算符
2.META标签的关键字(keyword)和描述(description),因为很多人滥用这两个标签,写了太多东西在里面,所以搜索引擎越来越不认这两个东西
3.网页的<h1>重要于<h2>重要于<h3>……<h5>,这些对于SEO是很重要的,易被搜索引擎爬虫捕捉
4.网页的正文中包含越多的关键字越好,尽量多但不影响人的阅读
5.网页中的图片
提交网站网址到搜索引擎;提交网站网址到黄页
怎么选择域名
1.如果域名中包含关键字,将会大大提升排名
反向链接的查找:Google的link:关键字;Link Survey软件
!动态网站的网页,应该在网页地址中尽量避免?、=、&符号的出现,将动态网站默认的网址形式通过编写程序变成对搜索引擎有好的格式
robot.txt文件放在网站的根目录下,告诉搜索引擎爬虫,这个网站内不愿意被爬行到的目录、内容
转载“详解搜索引擎的工作原理”
一名合格的seo工程师,一定会了解搜索引擎的工作原理,对于百度和谷歌的原理几乎差不多,只是其中有些细节不同,比如分词技术等,因为国内搜索一般都是百度,所以我们以后的课程都会针对于百度,当然,基础类的只是同样适用于谷歌!
搜索引擎的工作原理其实很简单,首先搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是基本的4个部分!
下边我们来讲搜索引擎的工作流程:
什么是搜索引擎蜘蛛,什么是爬虫程序?
搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎 的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较 好理解。
搜索引擎蜘蛛是怎样抓取网页的呢?
发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环
首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。
搜索引擎蜘蛛几乎是24小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。
搜索引擎的蜘蛛抓取网页有规律吗?
这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗?答案是有!
如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!
蜘蛛抓取网页策略1:深度优先
什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。大家看下图
在上图中就是深度优先的示意图,我们假如网页A在搜索引擎中的权威度是最高的,假如D网页的权威是最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先!
蜘蛛抓取网页策略2:宽度优先
宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。
上图呢,就是宽度优先的示意图!这其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。
蜘蛛抓取网页策略3:权重优先
如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先, 并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优 先!
那么搜索引擎蜘蛛怎样知道这条连接的权重呢?
这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量;
那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素,我们在后边的进阶中会降到逻辑策略,到时候我在详细的给大家说!
蜘蛛抓取网页策略4:重访抓取
我想这个比较好理解,就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:
1、全部重访
所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!
2、单个重访
单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。
那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。
以上呢,就是搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在搜索引擎蜘蛛把网页抓取回来,就开始了第二个部分,也就是数据分析的这个部分。
数据分析系统
数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个:
1、网页结构化
简单的说,就是把那些html代码全部删掉,提取出内容。
2、消噪
消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权!
3、查重
查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。
4、分词
分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。
5、链接分析
这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。
数据索引系统
在进行了上边的步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。那么这个索引库又大致分为以下两个系统:
正排索引系统
什么是正排索引?简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个URL的外链,关键词密度等等数据。
搜索引擎简单的工作原理概况
搜索引擎蜘蛛发现连接 → 根据蜘蛛的抓取策略抓取网页 → 然后交到分析系统的手中 → 分析网页 → 建立索引库
OK,这节课可算是完了。太不容易啦我,今天只是对搜索引擎工作的一个简单的讲说,因为搜索引擎的非常复杂的一个系统,不可能几十分钟就可以全方位的讲道,我们在进阶或者高级教程中会慢慢的讲到!