Hadoop技术在商业智能BI中的应用

Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日,Hadoop在技术上已经得到验证、认可甚至到了成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括HBase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库,HIVE是一个基于HBase数据仓库系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于HIVE服务,并可共享HIVE的元数据。Spark是一个类似MapReduce的并行计算框架,也提供了类似的HIVE的Spark SQL查询接口,Hive是基于hadoop的数据分析工具。

很多企业比如银行流水作业很多,数据都是实时更新且数据量很大。会采用hadoop作为底层数据库,借由中间商处理底层数据,然后通过BI系统去连接这些中间数据处理厂商的中间表,接入处理数据,尤其以星环、华为这类hadoop大数据平台商居多,使用也较为广泛。

这里以星环大数据平台与帆软大数据BI工具FineBI的结合应用来简单介绍下。

由于星环也是处理hadoop下的hive数据库,其本质都是差不多的,可以使用Hive提供的jdbc驱动,这个驱动同样可以让FineBI连接星环的数据库并进行一些类关系型数据库的sql语句查询等操作,部分特殊sql的公式需要与星环人员确认是否可以使用。

首先将这些驱动拷贝到报表工程下面,然后重启BI服务器。重启后可以建立与星环数据库的数据连接,最后通过连接进行数据查询。

1、本地部署

下图是FineBI内部测试用的hadoop的jar包(将以下jar包放置于webinf-lib文件夹下),亲测,可连接成功,如下图所示:

2、数据连接

数据连接如下图所示:

测试连接成功之后,点击确定,可直接选择数据库中对应的表加入业务包中,类似于Mysql这些最常见的数据库取表方式。

3、实际分析案例

某银行的总行层面-机构维度-四象限图

(2)总行层面-机构维度-趋势分析

(3)总行层面-产品维度-盈利产品

4.关于FineBI的FineIndex和FineDirect功能

hadoop是底层,hive是数据库,上述案例采用的是FineIndex(cube连)连接,用的是hiveserver的方式进行数据连接的;数据连接成功之后,将hive数据库中的表添加到业务包中,也就是将库中数据拿到我们的多维数据库(FineIndex),当然抓取的过程中也可以读取数据库关联和转义,也可以手动转义和进行关联,同时也可以做一些etl操作如新增公式列/行列转换/join/union/过滤/分组统计/自循环列/新增分组列/使用部分字段等,做过处理的这些数据表用于前端分析。

也就是说数据库-FineIndex-前端分析,这里的FineIndex相当于一个中间库的形式,用来存储数据表,关联转义索引等。这些都对后续前台分析处理数据效率有很大的提升(因为直接sql取数,效率受数据库本身的限制,数据量大时,一般分析工具很容易就卡死升职内存溢出导致系统无响应),这也是FineIndex方案的初衷。FineIndex存在有两个意义,一个是提升效率,一个就是对数据进行二次整合处理。

FineBI还有一个连接方式FineDirect(数据库直连),主要是应对如下需求:

  • 分析结果的实时性

企业用户在使用BI工具的时候,多数情况下是对大量的历史数据进行OLAP分析,但是也有部分用户需要展现结果的实时性。例如金融行业对于交易风险的分析,是对每一笔流水实时进行分析的,如果需要经过构建多维数据库的过程,数据到来就会有延迟,影响分析结果的准确性。但是因为计算的过程交给了数据库,响应速度更多的取决于数据库的性能。

  • 大数据平台的充分利用

随着各种分布式计算方案的不断优化,数据的计算性能也有了快速的发展,计算能力有了显著的提高,不少企业已经有了自己的大数据计算平台,例如hadoop,kylin,greenplum,vertica等,这些平台的对于大数据量的处理性能已经足以满足使用需求,不再有建模的需求,因此FineBI直连引擎提供了对接这些数据平台的功能。

时间: 2024-10-07 05:59:59

Hadoop技术在商业智能BI中的应用的相关文章

从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理. 由此,近期凡是空暇时,便在看"Hadoop","MapReduce""海量数据处理"这方面的论文.但在看论

新手必会:商业智能BI入门专业词汇(一)

进入任何一个行业,都必须经历的就是了解该行业的相关专业词汇,尤其是IT行业.如果专业词汇都不懂几个,势必会影响后续的深入学习.在我们每周三的公开课里已经有或多或少提及到关于商业智能BI入门的一些专业词汇,学员们也表示学到了很多.但是学海无涯,BI这一行还有很多很多的专业词汇是你们没有碰到的,今天小编就为大家整理了这么一个商业智能BI入门的词汇列表,方便大家查阅学习.废话不多说,快往下看吧! 温馨提示:由于本次词汇列表提供的仅仅是词汇简单的定义,如果说想更深入了解每个词汇背后的更多信息,烦请读者自

2016商业智能bi行业发展趋势

Yonghongtech:全球商业智能BI与分析市场的占的份额继续扩大.根据当前Gartner对该领域的年度综合增长率的预计,市场增长率可能维持在2014年的5.8%,直至2019年. 然而,伴随着购买模式和需求的变化,不高的增长率反映了一个处于转变过程中的市场:购买决策持续从IT部门的领导转换为业务线的领导和用户,他们需要更敏捷和更灵活的个性化选择——新准则是先落地再扩展.现在与以往那种带动企业两位数增长的大规模的企业级交易截然不同,那时的IT部门掌握更多的预算,并对采购决策施加着更多影响.

商业智能BI推动制造业智能化转型

制造业是我国国民经济的支柱产业,是我国经济增长的主导部门和经济转型的基础,如今我国制造业面临技术工艺不精.缺乏市场意识.商贸流通环节多.物流成本大.仓储效率低下等问题,正处在转型的特殊时期. 内忧: 从企业信息化管理角度来看,我国制造企业由于信息化水平相对较低,集成应用制约企业业务能力的提升,致使粗放型制造改革缓慢,供应链.产业结构不合理,最终导致产能过剩. 外患: 发达国家已将注意力转至高端的技术和营销环节.以德国提出的"工业4.0"的战略发展计划为导向,制造业未来将朝着供应,制造,

新手必会:商业智能BI入门专业词汇(二)

前面我们已经发布了商业智能BI入门专业词汇上篇,这次小编为大家完整呈现完词汇表的全部.学完这两篇,虽不上是一名标准的业内人,但是也成功地入了门,下次再来接触BI,至少懂得别人在说什么啊.妈妈终于不用担心你是BI小白啦!好了,玩笑话说完了,咱们赶紧开始学习商业智能BI入门专业词汇吧! R 软件即服务(SaaS)/一种软件交付模式,其中软件以订阅方式出售,并集中托管,通常由最终用户通过Web浏览器使用客户端访问. S 伸缩性/增加数据量和数据仓库用户数量的能力.如果一个系统在体量大的情况下(比如大型

十大商业智能BI供应商,你都听说过吗?

关键词:商业智能BI供应商 在当今社会,各大公司不得不持续监控公司的商务数据以应对变化莫测的市场.而商业智能(BI)技术的出现为公司提供了一种回望过去.分析当下.预测未来的商业模式.下文根据PAT的数据列举世界十大商业智能软件供应商及他们的产品. 1|Microsoft 微软公司的Power BI产品以强大的数据分析能力.广泛的数据格式支持.以及极具竞争力的价格享誉业界.Power BI支持用户以数据驾驶舱的形式全方位监控业务数据,新版本的Power BI支持用户本地部署,这在原来仅支持云端处理

OLAP(联机分析处理)工具就是商业智能(BI)吗?一文理清关系

OLAP(联机分析处理)和商业智能(BI)常常在一起出现,但事实上OLAP工具仅仅是BI的一部分,是一项十分关键的分析技术.本文就来仔细解释这一个问题,帮大家理清关系. 1.什么是OLAP OLAP也被称为多维分析,它的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念,“维”一般包含着层次关系.因此OLAP也可以说是多维数据分析工具的集合. 2.发展历程 当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Proce

景瑞地产商业智能BI整体实施过程

1.1行业背景 1.1.1景瑞地产 景瑞地产成立于1993年,专注于房地产开发,并一直秉持"永远诚信.恪守专业.锐意进取.共赢未来"的核心价值观和"舒适之道"的企业使命. 景瑞地产,源自上海.通过多年发展,景瑞确立了"深耕三线.产品领先"的战略.并且依托城市发展实现:巩固上海.深耕长三角.布局全国的三步走战略.作为一家从地产开发延伸至物业管理的全国化品牌地产企业,景瑞地产多次获得"中国房地产百强"."中国房地产百强运

Hadoop技术内幕HDFS-笔记2

任何一个复杂的软件系统,为了提高其适应性和扩展性,一般都会有一个配置模块或者配置系统,作完成其扩展.定制的手段和方式. 1.1.  Windows的配置文件 (第一次知道这事啊): 采用的是ini后缀的文本文件,可通过动态链接库提供方法进行处理. 初始化文件或profile概要文件 1.2.  Java配置文件: Properties文件 Xml文件 工具:Apache Commons Configuration 用于对配置文件进行常用的操作. Hadoop configuration Hado