规则引擎在数据分析中的应用

前言:规则引擎通过将业务规则和开发者的技术决策分离, 实现了动态管理和修改业务规则而又不影响软件系统的需求。以下通过实例对基于SQL 查询、自定义规则等一系列场景来说明规则引擎在数据分析中的应用。

在现代的企业级项目开发中, 商业决策逻辑或业务规则往往是硬编码嵌入在系统各处代码中的。但是外部市场业务规则是随时可能发生变化的, 这样开发人员必须时刻准备修改、更新系统,降低了效率。在这种背景下, 规则引擎应运而生,它通过将业务规则和开发者的技术决策分离, 实现了动态管理和修改业务规则而又不影响软件系统的需求。规则引擎具有广泛的应用领域, 同样也适用于数据分析和清洗。

假设我们有以下所示的一个表结构:


字段名


字段类型


说明


Name


Varchar(50)


姓名


Sex


Int


性别(1:男,0:女)


Department


Varchar(50)


部门


Salary


Int


工资

我们可能需要判断工资(Salary)字段不超过5000,按照此规则对该表中的数据进行清洗分析。

在数据分析中, 数据通常存储在如上所示的数据库表中,并且数据量也是比较大的。不可能一次性地导入到内存中供规则引擎使用。因此我们将通过规则引擎来分批读取并导入数据到内存中。

通过规则引擎进行数据分析将遵从以下所示的结构步骤:

1:需分析的数据

2:数据读取

3:将数据写入内存

4:规则库

5:规则引擎

6:分析结果

工作原理:

首先从需要分析的数据库中按照批次读取数据,然后将读取的数据放入内存中,再按照规则对内存中的数据进行过滤分析,当内存中的数据分析完成后,清空内存中的数据,再读取下一批数据进来进行新一轮的分析,知道所有的数据处理完毕为止。

规则库

用于判断工资的业务内容我们用旗正规则引擎提供的自然语言来进行表示,从而构成规则库,如下图所示:

上面的例子中,我们主要做的工作就是不停的判断人员的工资情况,大于5000就发出警告信息,并把该条数据提取出来,存放其他指定的地方。

下面我们再用一个实际的例子来做一个规则引擎的示例,说明如何用旗正规则引擎来表示数据分析中的业务规则

在车管所电子档案系统中存在如下所示的数据表:PF_Table,用于记录档案图片的基本信息,我们对该表进行数据分析,忽略数据的完整性和有效性,我们只看有多少数据违反了以下说明的业务规则


fNo(指标)


paNo(页号)


Path(存放路径)


caNo(文件)


baNo(业务)


0217233


1


\2008032403\0217233\1.jpg


406101


2008032403


0217233


2


\2008032403\0217233\2.jpg


406102


2008032403


0217233


3


\2008032403\0217233\3.jpg


406105


2008032403


0217233


4


\2008032403\0217233\4.jpg


406108


2008032401

业务规则

1:path由三部分组成:业务类型,指标档案,页号。

业务类型:必须与baNo一致

指标档案:必须与fNo一致

页号:必须与paNo一致

我们可以把旗正规则引擎对数据的分析简单概括为3个步骤

1:规则引擎从数据库中读取数据,并将读取的数据加载到内存中

2:取出内存中的数据进行分析,校验,处理

3:返回结果数据,将脏数据存储到指定的地方或者输出其他的文件和信息

第一步:取出数据

这个过程主要是通过规则引擎从数据库中读取数据,并把数据存放到内存中,旗正规则引擎规则引擎提供一个独特的功能,就是允许规则引擎直接访问数据库,而不需要其他任何外部程序代码来协助。过程和传统的编码方式一样,编写SQL查询语句,然后执行查询,将结果存入内存。

对一个数据库进行分析的过程中,数据量肯定是巨大的,所以在编写SQL语句读取数据这个环节,我们要做一个说明:它可能需要DBA或者是专业的数据库操作人员来完成,这个和规则引擎没有关系,规则引擎只负责执行查询,以及后续动作。

在这里我仅用一个简单的查询语句来说明旗正规则引擎提供的这个功能:

select top(10) * fromPF_Table

这表示我只读取PF_Table数据表的前10条数据来进行处理

通过规则引擎对象库中添加test.dbs数据库连接对象,然后通过该连接就可以直接访问数据库,编写查询,插入,删除,更新等语句

在SQL语句编写完成后,我们就可以在规则中执行该语句

在规则包中添加一条规则,然后将复制的执行SQL的方法粘贴到规则的那么中

这样,当规则运行的时候就会执行该查询,同时会把查询得到的数据放入到内存中,在这里我们定义了内存表这个规则对象,可以直观的看到内存中的数据

第二步:数据分析处理

数据加载到内存中以后,我们需要取出来用配置好的规则来进行分析过滤

因为path由3部分组成,每个部分都有对应的规则,所以我们先把这3部分按照特定的字符来分开,然后看第一部分是否与业务类型一致,第二部分是否与指标档案,第三部分的数字是否与页号一致,如果任何一个不一致,那么该条数据是错误的数据

时间: 2024-08-29 02:28:38

规则引擎在数据分析中的应用的相关文章

Java规则引擎及JSR-94[转]

规则引擎简介 Java规则引擎是推理引擎的一种,它起源于基于规则的专家系统.      Java规则引擎将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策.Java规则引擎接受数据输入,解释业务规则,并根据规则作出业务决策.从这个意义上来说,它是软件方法学在"关注点分离"上的一个重要的进展.      JSR-94规范定义了独立于厂商的标准API,开发人员可以通过这个标准的API使用Java规则引擎规范的不同产品实现.但值得注意的是,这个规范并没有强制统一规则定义的

旗正商业规则引擎和开源及其它规则引擎测试对比

规则引擎在基础软件,或者在很多系统中已经不是稀奇的玩意,最近这几年,国内不断兴起很多的规则引擎,至于什么是规则引擎,在这篇文章中,就不做介绍了,我想能看以下内容的,多少对规则引擎也都有所了解了. 国内在2003年的时候,出了第一款商业规则引擎-旗正商业规则引擎(VisualRules),为什么这么说呢,因为再此之前,国内所用的规则引擎,都是国外产品,或者开源产品,纯自主研发旗正是第一款,直至目前为止,纯自主研发的规则引擎少之又少.那么旗正商业规则引擎到底怎样?今天,给大家介绍一下,顺便,我们拿出

【java规则引擎】规则引擎RuleBase中利用观察者模式

(1)当RuleBase中有规则添加或删除,利用观察者模式实现,一旦有变动,规则引擎其他组件也做出相应的改变.(2)学习思想:当一个应用中涉及多个组件,为了实现易扩展,解耦思想.可以利用观察者模式实现.基于易变动的数据结构中加入监听者,监听者依据被监听者的变动动作,定义自己的动作.在监听者内部通知其他组件做出相应改变.实现面向对象的思想.组建之间实现了解藕. 一:被监听数据,也就是规则网络RuleBase的接口定义 1 package com.nonbankcard.commons.doorls

【java规则引擎】drools6.5.0版本中kmodule.xml解析

kmodule.xml文件存放在src/main/resources/META-INF/文件夹下. 1 <?xml version="1.0" encoding="UTF-8"?> 2 <kmodule xmlns="http://jboss.org/kie/6.0.0/kmodule"> 3 <kbase name="rules" packages="rules"> 4

简说规则引擎在促销返利中的应用

大型生产型企业销售渠道的建设,一般都采用代理商政策.根据地区.产品等情况,设立不同级别的代理商,不同地区.不同级别代理商有着不同的促销返利政策,也需根据企业.市场现状对促销政策进行调整,另一方面,也需要对促销政策进行风控管理,以防止不法分子利用政策空隙牟取利益. 生产型企业需要每个季度,根据最新的促销政策,需要计算每个代理商的返点金额.这项工作目前基本上都是采用手工采用Excel进行计算,效率比较低下,当达到一定数量级数据,手工计算不能及时进行计算进行返利,对企业造成一定的影响. 如果要将返点计

Drools规则引擎-如果判断某个对象中的集合是否包含指定的值

规则引擎集合相关处理 在实际生产过程中,有很多关于集合的处理场景,比如一个Fact对象中包含有一个集合,而需要判断该集合是否包含某个值.而Drools规则引擎也提供了多种处理方式,比如通过from.contains.exists等进行操作,比较. 当然也可以通过function函数来做相应的比较,在个在其他章节讲到过,就不在此赘述.下面重点以几个实例才进行讲解,在具体实践中根据具体情况来进行运用. 实例 省略掉基本的配置,直接看调用代码和规则代码. 测试调用代码: public class Co

Flink/CEP/规则引擎/风控

基于 Apache Flink 和规则引擎的实时风控解决方案 ? 对一个互联网产品来说,典型的风控场景包括:注册风控.登陆风控.交易风控.活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好.这要求风控系统一定要有实时性.本文就介绍一种实时风控解决方案.风控是业务场景的产物,风控系统直接服务于业务系统,与之相关的还有惩罚系统和分析系统,各系统关系与角色如下: 业务系统,通常是 APP + 后台 或者 web,是互联网业务的载体,风险从业务系统触发

8招带你玩转规则引擎 | 我的物联网成长记

[摘要] 华为云物联网平台提供的规则引擎包括数据转发和设备联动等多种能力,这些能力都要怎么使用?本文教您8招最常用的用法,带您玩转规则引擎. 规则引擎是华为云物联网平台提供的一种能力,用户对接入平台的设备设定相应的规则,在条件满足所设定的规则后,平台会触发相应的动作来满足用户需求.规则引擎包含数据转发和设备联动两种类型. 数据转发规则:物联网平台支持将设备上报的数据(和设备信息)转发至其他云服务,包括数据接入服务DIS.对象存储服务OBS.企业集成平台ROMA等,并支持对转发的数据进行过滤. 设

规则引擎入门

什么是规则引擎? 规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策.接受数据输入,解释业务规则,并根据业务规则做出业务决策. 参考: http://baike.baidu.com/link?url=BfAR-sxz1ryvOZ4uSVCqn9Csy51U5qCUaIomAQBogPE7FOxbbDB-2iXWR6N8FReIkoNNdc-Hk4y0sxKWpknWd_ 规则引擎和工作流引擎有什么区别? 工作流引