搜索关键字更正 - Oracle Endeca Server

做了几个Oracle Endeca 电商项目。每个项目都会有搜过关键字拼写错误更正(Spelling Correction)的需求。淘宝也有类似功能。

Oracle Endeca Sever提供了关键字拼写更正的功能。项目开发中一般只需要用这个Endeca预置功能,必要时做些调整就可。但是一直很好奇Endeca怎么知道用户拼写错了,怎么知道应该将用户输入的关键字更正为什么。闲来无事,查阅了一些资料。整理如下:

Endeca Server为关键字更正提供了两种方式:

1. 自动更正 (Auto Spelling Correction): 当用户输入的关键字在系统字典文件(dictionary file)里不存在时,系统直接将用户输入的关键字替换成系统认为用户真正想输入的关键字,然后用替换后的关键字去搜索,并显示搜索结果。 一般UI如下。

2. 拼写建议 (Explicit Spelling Suggestion): 当用户输入的关键字只能匹配到极少的结果, 如6个以下 (数量可配置),系统向用户展示搜索结果的同时从字典文件里找出匹配结果更多且和用户输入的关键字相似的关键字,并询问用户是否想切换成系统建议的关键字。如用户输入Cannon, 有3条结果,但是 Canon有几百上千条结果。系统就会向用户展示和Cannon匹配的3条结果,并且提示 Did you mean  Canon? 用户点击 Canon  即可用 Canon 发起另一个搜索。

问题一: 系统字典文件是关键字建议的来源。字典文件是怎么来的呢?

字典文件里的所有单词来源于数据中所有可搜索的属性值。默认情况下,Endeca 将所有的可搜索的属性值加入字典文件。例如,数据里有300条商品。商量的可搜索属性为商品名称、颜色和描述。Endeca 就会将这300条商品中所有的商品名称、颜色和描述中含有的单词加到一个文件里,形成了字典文件。

但是当数据量很大时,字典文件就会很大,从而影响系统性能。于是Endeca提供了一个界面可以让用户配置哪些单词可以加到字典文件。从下减小字典文字的大小。配置界面如下图。

it occurs at least n times: 单词在数据源里出现过n次以上,才能被加入字典文件。商量名里有Kodar, 那Kodar在所有的商品可搜索属性里出现过5(n)次 以上才能被编入字典文件。

and is between n1 and n2 characters long: 单词长度在n1 - n2 个字符以内才能被编入字典文件。

问题二:Endeca 根据什么逻辑挑选字典文件里的单词呢?比如用户输入Kodaaar, 字典文件里有Kodar1, Kodar2, Kodar3, 那Endeca应该将Kodaaar替换成Kodar1 还是Kodar2或Kodar3呢?

暂时无解。欢迎各路大神留言指点。

参考资料:

https://docs.oracle.com/cd/E40518_01/server.761/es_dev/src/cdg_spelldym_about.html

https://docs.oracle.com/cd/E29584_01/webhelp/mdex_advDev/src/tadv_spelldym_configuring_in_devstudio.html

原文地址:http://www.cnblogs.com/lixiaoyan0203/p/6972993.html

时间: 2024-12-15 03:44:06

搜索关键字更正 - Oracle Endeca Server的相关文章

Oracle WebLogic Server 12c: Node Manager配置与使用

        在生产环境中,WebLogic服务器实例经常会跨多个管理域(domains).物理主机(machines)或地域(geographic locations)分开部署.Node Manager是远程启动.停止或重启管理服务器和受管服务器的工具.尽管它不是必须的,但如果你的WebLogic服务器中的应用有高可用性的需求,还是推荐使用它. Node Manager进程并不与特定的Weblogic管理域关联,只与特定的物理主机关联.可用同一个Node Manager进程控制多个Weblo

Oracle WebLogic Server 12c 新特性

美国时间2011年 12月9日,Oracle公司正式发布WebLogic 12c版本,c是cloud的缩写.截止当前(2013年8月)最新版本为Oracle WebLogic Server 12c (12.1.2).12c 最大的功能改进是完全支持Java EE 6标准,此版本主要基于 JDK 6,但支持JDK 7.开发人员可以下载163MB的ZIP版本 Oracle WebLogic Server 12c 提供了对客户和合作伙伴的重大增强来降低其总体拥有成本并向现有应用架构提供更多价值,于此同

Python实验:百度搜索关键字自动打开相关URL

#! python # coding: utf-8 # python实现百度搜索关键字,并依次用浏览器打开前五个搜索结果 ## ##Beautiful Soup 是一个模块,用于从HTML 页面中提取信息(用于这个目的时,它比正则表达式好很多).BeautifulSoup 模块的名称是bs4(表示Beautiful Soup,第4 版).要安装它,需要在命令行中运行pip install beautifulsoup4 import bs4, sys, webbrowser, requests #

将搜索关键字设置为高亮显示实例代码

将搜索关键字设置为高亮显示实例代码:搜索关键词以高亮状态呈现是一种比较人性化的举措,例如百度或者本站都有这样的功能,可以极大的提高辨识度,下面就通过代码实例介绍一下如何实现此功能.代码实例如下: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name="author" content="http://www.softwhy.com/

Oracle Dedicated server 和 Shared server(专用模式 和 共享模式) 说明(转)

一.  官网说明 在DBCA 建库的时候,有提示让我们选择连接类型,这里有两种类型:专用服务器模式和共享服务器模式.默认使用专用模式.如下图: Oracle 官方文档对这两种文档的说明如下: About Dedicated andShared Server Processes http://download.oracle.com/docs/cd/B28359_01/server.111/b28310/manproc001.htm OracleDatabase creates server pro

Oracle WebLogic Server开发权威指南 目录

http://www.cnblogs.com/lauleoi/p/3864309.html http://www.cnblogs.com/lauleoi/p/3864330.html http://www.cnblogs.com/lauleoi/p/3864329.html http://www.cnblogs.com/lauleoi/p/3864326.html http://www.cnblogs.com/lauleoi/p/3864318.html http://www.cnblogs.c

在 Angular 中实现搜索关键字高亮

在 Angular 中,我们不应该试图直接修改 DOM 的内容,当需要更新 DOM 内容的时候,应该修改的其实是我们的数据模型,也就是 $scope 中的数据,Angular 会帮助我们将修改之后的数据展示在页面中. 但是,在有些情况下,比如我们有一个搜索框,希望将搜索的关键字在正文中高亮出来,这时候就会感觉比较吃力了,filter 可以帮助我们处理这种情况. 实际上,很多时候,我们的数据是不能直接输出到 DOM 中的,典型的比如日期,或者货币等等,通常需要将我们内部的数据格式化之后,再输出到页

[nQSError: 37001]Could not connect to the Oracle BI Server Instance

[nQSError: 37001]Could not connect to the Oracle BI Server Instance 使用本机的OBIEE Client 的Oracle BI管理工具,连接远程服务器上的OBIEE Server, 联机打开rpd时,报如下错误 解决办法:关闭OBIEE Server 所在服务器的防火墙 service iptables stop 重新登录即可 原文地址: [nQSError:37001] Could not connect to BI Serve

如何给wp(Windows phone)中搜索关键字加亮?

问题来源 最近在群里看到群友讨论在wp中有个搜索功能,要求搜索关键字在搜索结果内容中加亮(即加颜色),由于wp中没有自带这样的控件,于是大家各抒自见,有人说用第三方控件,有人说用richtextbox,也有人说用textblock和run!那究竟哪种实现比较好呢?个人看法,当然是用textblock和run实现起来是最方便的! 实现要求 1.给出关键字(如:我,购物,菜鸟,技术),关键字可以一个或者多个,多个用英文逗号隔开 2.能在搜索结果中对关键字进行加亮 3.能自定义加亮的颜色 4.要求复用