搜索引擎在信息世界的地位是填补人与信息世界的信息断层,而面向泛在网的大搜索服务技术是将人、物、信息有机结合起来,为用户提供智慧的服务和解答。互联网搜索引擎只是针对文本,而今后的市场需求中,肯定存在着在物联网、泛在网中搜各种物体、关系、智慧知识的需求。在互联网中,搜索引擎是互联网的入口,谁掌握了搜索引擎技术,谁就在互联网应用市场中取得了有利地位。同样,在泛在网中,谁掌握了泛在网大搜索引擎技术的核心,谁在泛在网、物联网应用的市场中,就会有巨大的优势。
泛在网大搜索主要包括5个方面的内容,泛网数据获取、多源融合知识获取、用户搜索意图理解、智慧解答的在线匹配和安全隐私保护。
下图是泛在网中搜索引擎的体系结构,结合这个图,对这5个模块的作用进行说明。
首先,泛网数据获取,即支持对泛在网络空间中的数据和信息进行获取,包括互联网、物联网、社交网络、医疗健康、视频监控、地理信息等空间中去采集各种社会资源、信息资源、物理资源的数据。大搜索的数据获取与采集是有目的性的围绕着解答去搜集数据的,包括语法与语义上相关的数据。在数据类型方面,包括文本、图片、语音、视频等各种类型的多模态数据。
其次,多源融合知识获取,即基于泛在网获取的数据,面向泛在网络空间的海量实体及关系进知识挖掘,通过融合、关联、统计、推理、乃至众包等方法,支持巨规模实体与关系等知识,及时空属性的表示与获取;知识聚合中的知识是支持经过二次加工的,经过用户的查询、修改、反馈和自演化的过程,逐步完善的过程,该过程是大搜索引擎的核心过程。
第三,用户搜索意图理解,即面向意图理解的准确性和歧义消除的基本需求,结合用户的上下文和语义知识等方法,迅速、准确地理解用户的真实意图,并转变成与知识聚合可匹配推演的表示方式。大搜索是新一代具有“智慧”的搜索,能够面向用户查询输入的关键词、语音、手势等内容,结合用户手机终端、所处运动轨迹的时空场景以及历史记录和个人偏好等信息,准确理解用户的意图,并采用支持高效查询推演的统一模型进行表示。
第四,智慧解答的在线匹配,是基于意图理解表示和索引后的知识聚合与索引,经过快速匹配、排序等技术,形成若干个满足用户真正意图的智慧综合的解决方案,并通过结果评价方式给出其相关性排序。在大搜索中,搜索是一种智慧的服务,知识推演过程是在准确了解用户的需求的基础上,在可选择的范围内,为用户快速提供智慧的解答方案。
第五,安全隐私保护,即保证用户搜索的全程是安全的。首先确保数据来源和推演加工结果是可信的;其次挖掘搜索出用户的隐私不被曝光和恶意利用;同时支持暴力、色情等恶意信息的过滤。在数据搜集获取过程中,对数据来源进行确认来保证信息可溯源,最终使搜索返回结果可信。大搜索会并进行细粒度的访问控制测试,保证合适的搜索结果只返回给合适的用户而不被滥用,并采取相关技术手段,保证用户的隐私不被泄露或恶意分析利用。
这五个方面是泛在网搜索引擎设计的一种思路。国内外学术界在这五个方面都有一定的研究,并且各自都面临着若干的挑战需要解决。对这些问题的研究,和如何将这些研究成果有机地结合起来,我觉得是一个很有意义的事情。物联网市场是一个非常有潜力的市场,掌握了物联网的搜索技术,无疑对抢占这个市场的入口,有巨大优势。