搜索引擎与网页文本分词的原理

对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环!

  搜索引擎工作的第一步:提取页面文字

  首先就是抓取页面的文字,一般而言搜索引擎会把相关关键词的对应文字提取出来,还有就是meta标签等等,还有就是关键词和描述以及图片的ATL属性等等,这个ALT属性是需要用户把鼠标对应到图片上
才能够看到,另外还有就是网页的相关文本,所以很多FLASH网站在搜索引擎优化方面就会吃很多亏,因为没有很多的文本,而且搜索引擎也不会抓取
flash源代码!所以很多做flash网站优化的基本上会再编一套源码程序,让相关的文字和内容对应上,这样才能够被搜索引擎识别!

  搜索引擎工作的第二步:中文分词技术

  当搜索引擎把文字抓取之后,接下来的工作就是将这些文字进行分词,讲一句话分解成一个一个的短语,比如齐天大圣孙悟空这个短语,就会被分成齐天大圣和孙悟空两个单词,还比如:杨柳如是冷月这个词,我们可以通过图示一下看看这百度和谷歌的分词区别!

 
 这两个搜索结果是不同的,谷歌更倾向于将柳如是当成一个名词,所以在柳如是贴吧变成了第一个匹配的!而对于百度来说,就直接把这个杨柳如是冷月这个词分
别变成了杨柳,如是和冷月了,所以有关柳如是贴吧却没有出现在首页上,为什么会出现这么明显的区别呢?关键是谷歌没有一个专有的词典,所以匹配方式会有一些区别,我们要针对不同搜索引擎进行关键词优化,在内容上要尽量的靠近关键词,而不能够让关键词和内容割裂开来,这样关键词的排名就很难上去了!

  搜索引擎工作的第二步:匹配技术

  一:正向匹配,上面的杨柳如是冷月就是正向匹配,这种匹配方式有助于消除歧义,让搜索出来的结果更加准确,而不会将杨柳如是,变成柳如是了!

  二:逆向匹配,这是一种从后往前匹配的方法。

  三:最大化匹配,比如把美利坚合众国是自由的,最大匹配就成了美利坚合众国,自由!

  四:最小化匹配,依然拿美利坚合众国是自由的,最小匹配就成了美,利坚,合众,国,自由了,而在搜索引擎实际分词过程中,会将这几种匹配方式进行综合的运用,不会只会使用其中的一种,搜索引擎的分词技术最终的目的就只有两点,我们要奔着这两点来进行搜索引擎优化就能够有助于提升网站的排名!其一是通过各种匹配的技巧来消除文本中的歧义,让搜索的词出来的内容更加的准确和完整!其二就是通过各种匹配方式将一些人名,地名和机构名以及一些从没有登陆的词比如口头禅,流行语等等进行统计,然后将统计的结果和用户的想要了解的内容进行不同方式的匹配,从而让用户获得自己想要的内容!

时间: 2024-11-12 22:33:59

搜索引擎与网页文本分词的原理的相关文章

获取WebView里的网页文本内容

获取WebView里的网页文本内容,能够採用例如以下方法: public class ComJSInterface { public void loadHtmlContent(String content) { Log.d("comJs", "html:" + content); } } mWebView.addJavascriptInterface(new ComJSInterface(), "comjs"); mWebView.loadUrl

Chromium网页CPU光栅化原理分析

Chromium除了支持网页分块GPU光栅化,还支持CPU光栅化.GPU光栅化的特点是快,缺点是硬件差异可能会导差异性,以及不是所有的绘图操作硬件都能很好地支持.CPU光栅化的特点是通用,以及能够支持所有的绘图操作,缺点是较慢,特别是在网页使用硬件加速渲染的情况下,CPU的光栅化结果还需要上传到GPU去渲染.本文接下来将详细分析CPU光栅化的原理,着重描述它是如何快速地光栅化结果上传到GPU去的. 老罗的新浪微博:http://weibo.com/shengyangluo,欢迎关注! 从前面Ch

如何实现网页文本原格式显示

如何实现网页文本原格式显示:有时候我们需要网页中的文本能够实现简单的原格式显示,比如空格和换行等等,但是浏览器在解析的时候并不能够实现我们的要求,下面即是一段结合<pre>标签实现此功能的代码,希望大家可以做一下参考.代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta name="author" content="

文本分词

分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2]:便于提取文本的特征值,为文本提供特征值对比的词组.英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语.短语.俗语等表现形式,因此中文分词具有很大的不确定性.我国经过多年的发展已经取得巨大的成就,出现了一系列具有较高的分词准确率和快速的分词系统.并且在1992年我国就制订了<信息处理用现代汉语分词规范>[9],旨在为中文信息处理提供一个国家标准化的使用标准.本文即采用张华平的NLPIR/IC

搜索引擎优化网页设计:最佳实践

作为一名网页设计师,网页的设计是我们一个最直观的辨认.我们现在的生活依赖于网络,依赖于这个快速让我们互知和沟通的工 具.它早已不仅仅是一个静态的页面,而是一个有思想有文化无国界的一个内容涵盖量丰富的另一个世界.比如洞穴人的壁画.比如古埃及的形象文字,而现代人有 网页设计,是的,它非常重要. 那么,我要问,我们如何才能把一个信息准确快速的传达给他人?这时,我们就需要做SEO. 什么是SEO? SEO代表搜索引擎优化.它可以帮助和改善你的网站排名.我们知道,搜索者75%的人都只会看google第一页

网页浏览器的工作原理

1.3  使用网页浏览器 网页浏览器是显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件.它用来显示在万维网或局部局域网络等内的文字.影像及其他资讯.浏览器就是设计者的画廊,设计者把网页放在这里展示给用户. 1.3.1  网页浏览器的工作原理 Windows系统中自带了IE浏览器,普通用户在使用它浏览网页时,很多时候都忽视了自己在使用浏览器.对于一个页面设计者来说,了解浏览器的原理可以令设计者找到适合的途径把网页展示给用户. 那么用户是如何使用浏览器浏览网页的呢?WWW是一种采用

搜索引擎对网页抓取

一 .有什么办法能防止搜索引擎抓取网站? 第一种:robots.txt方法站点根目录中有个robots.txt,没有的话可以新建一个上传.User-agent: *Disallow: /禁止所有搜索引擎访问网站的所有部分User-agent: *Disallow: /css/Disallow: /admin/禁止所有搜索引擎访问css 和admin 目录,将CSS或admin目录修改为你指定的文件目录或文件即可.第二种:网页代码方法<head>与</head>之间,加入<me

Studio 爬虫 文本分词 化词云个性化设计

Studio 爬虫 文本分词 化词云个性化设计 分析步骤 设置工作目录 下载依赖包 加载依赖包 设置爬虫数据的URL地址 爬取数据 数据清洗 产看数据 制作词云 加载停用词表 去掉停用词 查看数据 生成Top100 词云 生成完整词云 个性化设计 setwd() install.packages("rjava") install.packages("wordcound") install.packages("wordcound2") librar

文本向量化的原理

一.文本分词 将需要进行分析的文本进行分词(英文直接按照空格分隔词汇,中文则需通过分词工具分隔之后,把词之间加上空格) 二.去停用词 在文本中可以发现类似”the”.”a”等词的词频很高,但是这些词并不能表达文本的主题,我们称之为停用词. 对文本预处理的过程中,我们希望能够尽可能提取到更多关键词去表达这句话或文本的中心思想,因此我们可以将这些停用词去掉后再编码. 三.将词编号 按照词频(次出现的频率)进行倒序编号,如英文中一篇文章出现最多的应该是“a”,“the”等词汇(假设‘a’出现次数大于‘