一种泛在网大搜索引擎的系统架构

搜索引擎在信息世界的地位是填补人与信息世界的信息断层,而面向泛在网的大搜索服务技术是将人、物、信息有机结合起来,为用户提供智慧的服务和解答。互联网搜索引擎只是针对文本,而今后的市场需求中,肯定存在着在物联网、泛在网中搜各种物体、关系、智慧知识的需求。在互联网中,搜索引擎是互联网的入口,谁掌握了搜索引擎技术,谁就在互联网应用市场中取得了有利地位。同样,在泛在网中,谁掌握了泛在网大搜索引擎技术的核心,谁在泛在网、物联网应用的市场中,就会有巨大的优势。

泛在网大搜索主要包括5个方面的内容,泛网数据获取、多源融合知识获取、用户搜索意图理解、智慧解答的在线匹配和安全隐私保护。

下图是泛在网中搜索引擎的体系结构,结合这个图,对这5个模块的作用进行说明。

首先,泛网数据获取,即支持对泛在网络空间中的数据和信息进行获取,包括互联网、物联网、社交网络、医疗健康、视频监控、地理信息等空间中去采集各种社会资源、信息资源、物理资源的数据。大搜索的数据获取与采集是有目的性的围绕着解答去搜集数据的,包括语法与语义上相关的数据。在数据类型方面,包括文本、图片、语音、视频等各种类型的多模态数据。

其次,多源融合知识获取,即基于泛在网获取的数据,面向泛在网络空间的海量实体及关系进知识挖掘,通过融合、关联、统计、推理、乃至众包等方法,支持巨规模实体与关系等知识,及时空属性的表示与获取;知识聚合中的知识是支持经过二次加工的,经过用户的查询、修改、反馈和自演化的过程,逐步完善的过程,该过程是大搜索引擎的核心过程。

第三,用户搜索意图理解,即面向意图理解的准确性和歧义消除的基本需求,结合用户的上下文和语义知识等方法,迅速、准确地理解用户的真实意图,并转变成与知识聚合可匹配推演的表示方式。大搜索是新一代具有“智慧”的搜索,能够面向用户查询输入的关键词、语音、手势等内容,结合用户手机终端、所处运动轨迹的时空场景以及历史记录和个人偏好等信息,准确理解用户的意图,并采用支持高效查询推演的统一模型进行表示。

第四,智慧解答的在线匹配,是基于意图理解表示和索引后的知识聚合与索引,经过快速匹配、排序等技术,形成若干个满足用户真正意图的智慧综合的解决方案,并通过结果评价方式给出其相关性排序。在大搜索中,搜索是一种智慧的服务,知识推演过程是在准确了解用户的需求的基础上,在可选择的范围内,为用户快速提供智慧的解答方案。

第五,安全隐私保护,即保证用户搜索的全程是安全的。首先确保数据来源和推演加工结果是可信的;其次挖掘搜索出用户的隐私不被曝光和恶意利用;同时支持暴力、色情等恶意信息的过滤。在数据搜集获取过程中,对数据来源进行确认来保证信息可溯源,最终使搜索返回结果可信。大搜索会并进行细粒度的访问控制测试,保证合适的搜索结果只返回给合适的用户而不被滥用,并采取相关技术手段,保证用户的隐私不被泄露或恶意分析利用。

这五个方面是泛在网搜索引擎设计的一种思路。国内外学术界在这五个方面都有一定的研究,并且各自都面临着若干的挑战需要解决。对这些问题的研究,和如何将这些研究成果有机地结合起来,我觉得是一个很有意义的事情。物联网市场是一个非常有潜力的市场,掌握了物联网的搜索技术,无疑对抢占这个市场的入口,有巨大优势。

时间: 2024-11-08 21:25:31

一种泛在网大搜索引擎的系统架构的相关文章

去哪儿网大数据流处理系统:如何使用Alluxio(前 Tachyon)实现300倍性能提升

概述 互联网公司同质应用服务竞争日益激烈,业务部门亟需利用线上实时反馈数据辅助决策支持以提高服务水平.Alluxio(前Tachyon)作为一个以内存为中心的虚拟分布式存储系统,在大数据系统性能提升以及生态系统多组件整合的进程中扮演着重要角色.本文将介绍去哪儿网(Qunar)的一个基于Alluxio的实时日志流的处理系统,Alluxio在此系统中重点解决了异地数据存储和访问慢的问题,从而将生产环境中整个流处理流水线的性能总体提高了近10倍,而峰值时甚至达到300倍左右. 目前,去哪儿网的流处理流

三种Dataase Mapping的系统架构

ORM - O/R M - Object/Relational Mapping: A technique/idea used to map objects and thier individual relations to an relational database(mysql, postgresql, mssql, oracle, db2, pretty much any major db today) DAO - Data Access Object: An object used as

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52

最新最准确各大搜索引擎蜘蛛名称2014-4-15 10:02:52 1.百度蜘蛛:Baiduspider网上的资料百度蜘蛛名称有BaiduSpider.baiduspider等,都洗洗睡吧,那是旧黄历了.百度蜘蛛最新名称为Baiduspider.日志中还发现了Baiduspider-image这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛.常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap).Baiduspider-image(抓取

新站长必备 各大网站收录入口,各大搜索引擎提交, 搜索引擎提交地址

网站建设完成之后,第一件事情就是向各大搜索引擎提交新网站.已更好的分享自己的文章,获取更多的访客. 搜索引擎提交包括提交给搜索引擎爬虫和提交给分类目录. 提交给搜索引擎爬虫的目的是让搜索引擎将网站收录到索引数据库.检验网站是否被搜索引擎收录的办法是直接在搜索引擎中搜索网址,查看能否找到网站结果,也可以通过输入命令”site:hoar.me”获得具体的页面收录数量. 提交给搜索引擎分类目录有两个目的:一是为了用户通过分类目录检索到网站,二是为网站获得一个高质量的外部链接,有助于增加网站的链接广度.

【PPT&视频】《陈新河:万亿元大数据产业新生态》——央视网大数据名人讲堂之大数据产业系列

[PPT&视频]<陈新河:万亿元大数据产业新生态>--央视网大数据名人讲堂之大数据产业系列 原创 2016-07-16 陈新河 软件定义世界(SDX) 热门下载(点击标题即可阅读) ?[下载]2015中国数据分析师行业峰会精彩PPT下载(共计21个文件) 因微信限制,部分图不能显示出来,高清完整版全文请扫描二维码,见每篇文章底部专栏 <陈新河:万亿元大数据产业新生态>--央视网大数据名人讲堂之大数据产业系列 嘉宾介绍 陈新河   中关村大数据产业联盟副秘书长 Talking

各大搜索引擎提交网站的入口地址

搜索引擎网站收录地址大全:百度搜索网站登录口:http://www.baidu.com/search/url_submit.htmlGoogle网站登录口:http://www.google.com/addurl/?hl=zh-CN&continue=/addurlGoogle新闻网站内容http://www.google.com/support/news_pub/bin/request.py?contact_type=suggest_content&hl=cn搜狗网站收录提交入口:htt

北风网大数据就业课程视频教程

搜集了一点北风网大数据架构师的课程还是挺不错的,现在给大家发点视频,有需要的可以联系我QQ:375537364    链接:http://pan.baidu.com/s/1bPl5aY 密码:ymmi

[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索(二)

前情提要:最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台,名字是网盘小说.用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址.就是这么一个简单的功能,类似很多的网盘搜索类网站,我这个采集和搜索程序都是PHP实现的,全文和分词搜索部分使用到了开源软件xunsearch. 上一篇([PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索)中我重点介绍了怎样去获取一大批的百度网盘用户,这一篇介绍怎样获得指定网盘用户的分享列表.同样的原理,也是找到百度获取分享列表的接口,

四种武器--大数据与R,python,SAS,SPSS的关系?

武林中人很多都要求自己各种兵器都能够使用,但每个人都会有一个自己最擅长的兵器.以前这四种软件就如大数据里的"刀枪棍棒".兵器只是一部分,重要的还是我们自身对于大数据的理解,也就相当于是内功.毕竟,双方比武,兵器取胜的部分是很大,但不是决定因素!试想,一个内功高深的人跟一个只会使枪的人来比试,说不定对方摘叶就可以伤到那个只会使剑的人.......... 好吧!我们就一一揭开这四种"武器"的面纱! 先说R,与其说是一门语言,不如说是一个软件.他更多的应用是在数据量在中小