企业搜索解决方案流程

针对与企业级的搜索数据索引准备方案纪录

1. 首先明确需要搜索的数据范围

2. 针对这些基础数据创建对应的索引库,用来存储需要索引的数据

那么针对这么核心的亮点举例我个人的实际操作经验,之前做的是类似于企业文档的搜索解决方案,针对与各种不同种类的技术文档索引到Autonomy,然后通过前台的平台服务调用Autonomy提供的Restful接口获取数据;

数据准备步骤:

1.先准备需要的数据库表准备记录需要索引的数据

业务表:

Node 文档业务表

增量表:

Index_CM_Inc 普通文档增量表  描述:用来存储需要增加,删除,修改的数据,通过触发器监控主业务表Node,把对应的操作记录到此增量表

Index_KN_Inc 知识库文档增量表 描述:同上,只是区分开了类别,因为根据分类存储到不同的索引库

索引表:

Index_CM 普通文档索引表 描述:Autonomy的爬虫根据此表的内容记录去爬取文档索引到Autonomy的文档库中;

Index_KN 知识库文档索引表 描述:同上

索引状态表:

Index_CM_Status 普通文档索引状态表 描述:Autonomy爬虫完成之后,需要检查对应的文档数据是否爬成功,是否索引成功

Index_KN_Status 知识库文档索引状态表 描述:同上

2.数据准备流程以及处理流程

2.1 首先准备增量表的数据

针对业务表的Node创建对应的触发器,增加,删除修改;把这些监控到的数据有变化的数据存储到对应类型的增量表;(也可以不使用触发器,但是得在程序里面控制插入到对应的增量表,这个每种方式都有各自的优缺点,自己体会去吧。)

2.2 增量表的数据同步到索引表(此表数据存储所有需要索引的字段数据,以及文件的位置等等,也就是说你需要索引到索引库去的所有内容字段)

通过定时任务调用对应的存储过程计算所需要的字段同步到对应的索引表,之前我们项目设定的时间一般都是在凌晨12点同步数据;在同步的过程当中首先要清理掉前一天的数据,防止重爬;另外还需要从索引状态表中获取失败的数据同步到索引表,再次索引(缺点:策略是只处理当天的数据,也就是说发布的文档不会及时生效)

2.3 启动爬虫 (也是定时任务启动)

设定不同文档分类处理对应的索引表,爬取字段以及实体文件等。

2.4 爬虫结束后,需要启动检查任务

根据不同种类的索引表检查当天索引的数据是否索引成功,成功以及未成功的都需要表示出状态,因为第二天再次索引的时候需要重新索引失败的数据;那么如何检查呢,就是根据文档的ID调用Autonomy的索引库进行查看,如果能查询到,那么索引成功,否则为失败;

以上为基本的数据准备以及索引的大志流程,在这些流程里面启示还可以细分,为了保证数据能够被索引成功,定制不同的策略,比如状态表中的数据,检查完之后还可以在此爬取等策略;

这种解决方案启示也不仅仅只是针对与Autonomy,目前已经切换了搜索引擎为:ES基于Lucence的搜索框架也是可以使用的。

缺点就是在于实时性上;不过在这个思路的基础上是否可以更改策略,以保证它的实时性这个本人还没有去实现思考,后续希望能够做到。

时间: 2024-09-30 16:49:34

企业搜索解决方案流程的相关文章

Android FM模块学习之二 FM搜索频率流程

上一篇大概分析了一下FM启动流程,若不了解Fm启动流程的,能够去打开前面的链接先了解FM启动流程,接下来我们简单分析一下FM的搜索频率流程. 在了解源代码之前.我们先看一下流程图: 事实上从图中能够看到,实现搜索频率的功能是在底层CPP文件.java层仅仅操作和更新一些界面(GUI),Java调用JNI实现功能.Java app基本核心,通过方法回调实现a类和b类方法.b类调a类方法信息交互相互控制融为一体.App实现一些JNI接口终于实现核心功能是cpp文件,最后通过Service类(耗时操作

SOLR企业搜索平台 一 (搭建SOLR)

前提是已经安装了java的环境,环境变量的配置不做为讲解,网上也有大量资料.下面以linux为例来说明如何搭建好一个solr 1)首先下载solr,下载地址:http://mirror.bit.edu.cn/apache/lucene/solr/ 2)准备运行容器,我用的是tomcat-7.0.27. 也可以不用准备专门的容器,只需解压好solr,找到example文件夹,然后运行 start.jar.具体指令:java -jar start.jar.做应用的时候,不建议采用该方式.该方式内部包

apple企业证书申请流程

企业证书购买需要两个前提: 1.邓白氏编码 2.苹果企业开发者账号 博主先带你们搞定第一个邓白氏编码的申请如下: 苹果企业证书申请流程 登陆   APPLE 点击链接登陆苹果官网https://developer.apple.com/account/ios/certificate/certificateList.action 创建  ID登陆a.若有苹果账户直接点击登陆(sign  in)即可,步骤直接到 3登陆成功b.若没有苹果账户需创建一个  ID,点击 create apple id 注册

apple企业账号申请流程

1.Apple开发者账号分三种,个人和公司账号(99刀) 和企业账号(299刀) 2.企业账号的好处 1.在公司内部发布app. 2.在各个设备上使用  3.可以获得苹果代码级别的支持. 注册前必备,公司DUNS(邓白氏编码) 附申请地址:https://developer.apple.com/ios/enroll/dunsLookupForm.action 注册完成后1到2个工作日会受到邮件,其中包含邓白氏编码数字,剩下就是等14个工作日后去交299刀了.不要提前使用这个码哈,人家苹果公司同步

瑞星“互联网+”企业安全解决方案全面保障企业互联网信息安全

今年"两会"政府工作报告中,李克强总理首次提出了"互联网+"计划,旨在推动互联网和传统行业的融合.这不仅意味着我国今后将快速向互联网化发展,也意味着互联网安全和信息安全将成为企业生存.经济发展乃至国家安全的重要保障.各大互联网公司和创业者也都纷纷响应政府号召,一时间,"互联网+"俨然成为了各大媒体的头版头条.然而,每当看到这样的新闻报道时,博主都在深深的担忧:互联网确实有着其巨大的优点,但互联网安全威胁却从来没有停歇.那么,在"互联网+

利用SOLR搭建企业搜索平台 之——MultiCore

Solr Multicore 是 solr 1.3 的新特性.其目是一个solr实例,可以有多个搜索应用. 下面着手来将solr给出的一个example跑出来.这篇文章是基于<利用SOLR搭建企业搜索平台 之——运行solr>,有不明白的请参见http://lianj-lee.javaeye.com/blog/424383 1. 找到solr下载包中的example文件夹,在它的下面有个multicore文件夹,将这个文件夹下面的所有东西copy到 c:/solr-tomcat/solr下面.

各行业企业电子地图解决方案

各行业企业电子地图GIS应用解决方案 高端电子地图应用的“平民化” 从古至今,人类活动始终离不开对地理位置的判断,据统计人类80%以上的活动均和位置相关,随着社会发展,超大城市的出现 ,地理信息与位置信息越来越受到人们重视,甚至在日常生活中潜移默化地改变人们的生活.寻找餐馆.旅店.娱 乐中心.购 物中心.银行.旅游景点等等,只要轻点鼠标或触摸屏幕,需要的信息便出现在面前.位置服务将成为我们最好的向导.因此 地图在人类历史长河中始终扮演着重要的角色.                  上海为卓信息

分清企业会议与流程管理的主次

分清企业会议与流程管理的主次 --也说企业管理方式的转变 作者:张国祥 2014年7月24日 会议是解决问题.推动工作.提高工作效率最有效的手段.但是一切依靠会议,离开会议工作就无法开展则是管理的失败.特别是有一定历史和一定规模的企业,更是不能让会议成为开展工作的主要手段.当一切依靠会议推动的时候,企业的制度.标准.流程一定起不了多少作用.当企业员工养成"会议依赖症"之后,制度.标准.流程就更加不起作用. 为什么管理者开会成瘾?因为可以面对面沟通,有大家帮助想办法,万一解决不了问题,个

【Open Search产品评测】-- 淘点点:基于OpenSearch,轻松实现一整套O2O类搜索解决方案

 [Open Search产品评测]--  淘点点:基于OpenSearch,轻松实现一整套O2O类搜索解决方案   [使用背景] 我们淘点点团队应该可以算是内网首批使用opensearch来搭建应用的团队了,在此之前,一直使用集团内一个基于lucene的引擎平台.对于淘点点特定的排序需求,都需要该团队配合升级,运维上共同维护.年初,集团推出Isearch5,然后又看到opensearch,一个基于Isearch5之上的搜索开放平台.听下来最令我们开心的就是:排序支持formula, 这样以后我