知识分享

搜索引擎设计及发展

1.搜索引擎的起源

1.随着英特网的发展,搜索引擎也随着适应环境(技术,用户需求发展)随着发展。早期的文件在因特网上共享一些专业用户开始记录文件的类型地址等信息。但是随着加入因特网的人越来越多分享的资料也越来越多靠人工记录已经不能满足用户的需求了。这时出现了早期的爬虫用于满足用户对于资料的需求。

1990年,加拿大麦吉尔大学(University
of McGill)计算机学院的师生开发出Archie。当时,万维网(World
Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

来源: http://baike.baidu.com/link?url=FUntsBao7W5gapLeyRwaiiIS8cccOZ6R_2xQrDyAk-CyRAXKkl8u7KcF_fG7wL-xnAV3xgXaICR-RJtwRoBsxK

2.搜索引擎的发展

1.目录索引

按不同类别分类检索及

这时用人工对各种网上资料及信息处理的门户网站的出现如1995年成立的雅虎等。网站上的分类目录由人工整理维护,精选互联网上优秀网站并放入对应的目录下,同时为用户提供搜索接口。但是门户网站的缺点也有比如信息更新不及时用户不能找到自己想要的信息及资料等。

2.全文索引

为了满足更多用户的数据需求及个性化需求
1998年Google公司成立了。同时上市的高市值也激发了李彦虎回国创立了百度。早期的搜索引擎相当于网上的资料索引器,同时在页面提供广告显示及有限的竞价排名。

3.元搜索引擎

为了满足更多用户的数据需求及个性化需求 1998年Google公司成立了。同时上市的高市值也激发了李彦虎回国创立了百度。早期的搜索引擎相当于网上的资料索引器,同时在页面提供广告显示及有限的竞价排名。

4.垂直搜索引擎

垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。

对于搜索引擎的发展:

从互联网上的资源分:随着互联网上的信息的种类分类越来越细,比如即时新闻即使讯息的,对知识及技能问题总结的,对存在人事物做介绍的这个就涉及到品牌推广,网上各种资源做整合的比如音乐电影等,

从用户需求上分:专业的,准确的,及时的,可靠的,获取信息依旧是主流需求,因此更专业更准确的垂直搜索比,广泛的垂直搜索受欢迎。依据克莱.舍基的《认知盈余》和《未来是湿的》的人们对信息具有获取需求更具有分享互动需求。因此能提供知识获取也能能提供用户的知识展示的知乎大受欢迎。

全文搜索引擎还是在各类垂直领域做了一次统一搜录。但不同细分的垂直领域能很专业解决用户信息需求时,相信对于广度的全文搜索的需求应该也会降低。

搜索引擎发展方向会朝着如下方向发展:

1.对于自身专业信息分享的需求

2.生活多样化切碎了人们的时间完整性:对自身感兴趣的方向了解

3.

3.搜索引擎的分支领域的运用及发展

1.舆情监控系统

1.及时获取网络的不同平台的信息,数据爬取偏向于社交类的,及时获取一些关于舆论,谣言,等信息。同时抓取发布平台,最好能从发布平台获取用户的账号信息发布IP等。

2.个性化的新闻推荐

2.通过收集用户对不同标签的新闻或者blog或者话题等内容的喜好程度给用户建立一个喜好度标签,在用户需要或者新闻信息时推送相关的文章

3.商业信息挖掘 如行业动态

3.

4.搜索引擎的结构和大体模块

1.大体模块

搜索引擎的大体结构

1.爬虫:

主要功能就是爬去网页数据,

管理爬取数据URL地址,

初始爬去文件数据管理:爬取文件的过期机制,

2.
数据处理模块

1.对下载下来的数据进行数据清理,如去除HTML标签,广告去除,等

2.分词:对不同语言进行分词,搜狗有免费开放的词库使用。

3.对没用的词汇进行去除。

4.倒排索引的建立

6.对网页进行权重计算

3. 用户数据展示模块

1.对用户输入的语句进行分词

2.用用户的词汇集合和倒排索引的词汇集合进行匹对

3.对从倒排索引中获取的相关页面进行排序,加入竞价排名机制等或者插入推广然后给用户展示

2.模块细分

2.  爬虫搜索数据时采取的搜索策略 广度搜索和深度搜索

2.爬虫的URL来源源自于。基于互联网的结构就是不同功能的节点地址相互引用 ,于是对不同页面进行解析就会出现新的URL地址,这个新的地址和自身的URL库相比对,

出现重复的或者出现 已经访问的可以不放入URL库,也可以放入待抓取URL队列中。同时这个URL引用也是计算网页权重的重要方式(李彦宏有个相关专利)。

3.对URL队列采用位标示进行处理,即网页是否已经访问采用位标示可以加快队列检索速度。

3. 网页脏数据清理。Dom 解析 HTML标签去除 正则表达式。

4. 分词

中文词库使用   搜狗中文词库

算法的选取

http://blog.csdn.net/renenglish/article/details/5847100

http://www.chinaz.com/web/2009/0122/63905.shtml

http://www.cnblogs.com/birdshover/articles/1125614.html

5.倒排索引的建立

建立全文检索的工具  http://lucene.apache.org/

 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,

而是一个全文检索引擎 的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

建立全文检索的WEB请求接口:solor

是一个高性能,采用Java5开发,基于Lucene的一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。

5.搜索引擎的创新领域

1.从百度的专利申请方面来看

二  使用 Android方面的

          1.使用
          butterknife,retrofit,okhttp,greendao,rxjava,等框架做的页面依赖注入,业务数据分离及事件回调的框架及各个层次模块的测试。

时间: 2024-11-06 09:28:13

知识分享的相关文章

基于jfinal3.2构建的知识分享网[ 2017年08月27日 更新 ]

知识分享网(51fenxiang.xyz),是基于JFinal3.2+eayui1.5.2等技术构建的一款知识共享服务平台,该平台有利于企业和团队构建碎片化的知识分享平台,充分利用闲暇时间记忆碎片化的知识,提升企业或团队整体技能和知识水平. 访问网址: http://51fenxiang.xyz  http://www.mxtt.cc  QQ:303629685 权限系统模块演示:http://pan.baidu.com/s/1nvBkth3

2015第43周五知识分享会

晚上去青年路参加了wiz笔记主办的知识分享会,感觉里面的很多知识观点自己都懂都知道,但是如果要自己去讲也未必有晚上分享者讲的好,其实最主要的还是多讲故事,结合可视化的图文讲故事,最好能讲自己的经历故事,实在讲不出自己的故事,就讲自己听了的哪些生动有趣好玩的故事. 通过装修谈学习力的切入点很好,但感觉讲的太浅,其实就讲几点结构化知识,从书和知乎上获取高质量的信息,向内行一样提问. 知识的修炼重点就是讲搜集.整理.思考.实践分享的过程,纵向目录维度和横向标签维度,努力将数据变成信息再变成知识,最终沉

SCOM 2012知识分享-18:替代管理包

适应平台:System Center 2012 RTM/SP1 ------------------------------------------------------------------------------------------------------ 导入管理包时,System Center 2012 – Operations Manager 将发现管理包定义的对象,并开始将管理包的规则和监视器应用于已发现的对象. 你始终应该首先在预生产环境中导入新管理包,以便能够评估此管理包

SCOM 2012知识分享-23:体验客户端监视

适应平台:System Center 2012 RTM/SP1 ------------------------------------------------------------------------------------------------------ 您可以让客户端向作为中央收集点的 Operations Manager 管理服务器发送 CEIP 数据,而不是让数量众多的客户端各自单独地报告数据.然后主 CEIP 服务的管理服务器可以向 Microsoft 转发数据.从客户端到

SCOM 2012知识分享-21:无代理管理

适应平台:System Center 2012 RTM/SP1 ------------------------------------------------------------------------------------------------------ 如果无法或不适合在计算机上安装代理,请使用计算机无代理监视. 无代理管理的计算机是使用操作控制台发现的基于 Windows 的计算机. 你可以分配管理服务器或代理管理的计算机来提供计算机的远程代理功能. 管理无代理管理的计算机的方

SCOM 2012知识分享-20:管理用户角色

适应平台:System Center 2012 RTM/SP1 ------------------------------------------------------------------------------------------------------ 在 System Center 2012 – Operations Manager 中,用户角色是用于分配访问监视数据以及执行操作所需的权限的方法. 用户角色旨在应用于用户组,这些用户需要具有对相同监视对象组的访问权限以及对此组执

SCOM 2012知识分享-1:理解代理

Operations Manager"代理"是安装在计算机上的一项服务. 代理会收集数据.将采样数据与预定义的值进行比较.创建警报并运行响应. 管理服务器会接收配置并将配置分发到受监视的计算机上的代理. 所有代理均要向管理组中的一个管理服务器报告. 此管理服务器称为代理的主管理服务器. 代理根据管理服务器发送的配置观察受监视的计算机上的数据源并收集信息. 此代理还计算监视的计算机以及监视的计算机上的对象的运行状况状态,并向管理服务器报告. 监视的对象的运行状况变化或其他条件满足时,代理

SCOM 2012知识分享-2:理解管理服务器

(一)Management Server Management Server管理服务器主要用来: 管理整个管理组,并负责与数据库进行通讯: 负责为Agent提供配置数据: 所有的Agent会将健康数据,性能数据等提交给Management Server,然后再由Management Server写入到数据库中.Agent并不会直接与数据库打交道: 管理服务器是对管理组进行管理以及与数据库通信的焦点. 打开操作控制台并连接到管理组时,你就会连接到该管理组的管理服务器. 根据计算环境的规模,管理组可

(知识分享)软硬件调试九法:第九条规则 如果你不修复一个bug,它将永远 存在

1.查证问题确已被修复 如果遵循了“制造失败”这条规则,就知道如何验证你确实修复了问题.无论问题和修复看起来多么明显,你都无法保证修复是有效的,直到做了测试并验证. 2.查证确实你的修复措施解决了问题 如果你取消这个修复,系统再次出现失败,再应用这个修复,问题消失,才能够证明你确实修复了问题.这样做的原因是,在调试期间,往往会改变一些不属于修复的地方,有时这些改变会隐藏问题,如果没有意识到这一点,发现测试起作用了,就高高兴兴的回家了,因为你做的修复和问题消失毫无关系,因此修复方案到达客户后,可能

十进制负数转换为二进制、八进制、十六进制的知识分享

这篇文章主要介绍了十进制负数转换为二进制.八进制.十六进制的知识分享,需要的朋友可以参考下 程序猿们或许对二进制都不陌生,二进制是计算技术中广泛采用的一种数制.二进制数据是用0和1两个数码来表示的数.但是很多人都会将二进制转换成整数,但是如何用二进制表示负数呢?有的人会说,在二进制前面加个负数符合.而计算机只能认识0 和 1,又怎么去加个额外的负数符号呢?于是我们就需要用0和1来表示负数.如果想要弄懂这个,我们需要先了解什么是二进制原码. 原码是什么 原码(true form)是一种计算机中对数