FusionInsight,一个融合的大数据平台

随着物联网技术和应用的普及,以运营商、互联网以及实体经济行业为代表的企业产生了越来越多的数据,大数据的发展越来越蓬勃。

从2007年开始,大数据应用成为很多企业的需求,2012年兴起并产生了大数据平台,使用者主要是程序员;2013年到2017年间,数据逐渐增多,大数据平台变成了融合大数据平台,使用者从程序员变成数据管理员和数据分析师;从2018年开始,大数据进入企业数据智能新阶段,普通的工程师也能轻松应用。

当数据越来越多,需求也越来越高,环境越来越复杂,分析处理的方式也多种多样,这对平台有了更高的要求。

华为FusionInsight就是迎合着这种趋势来开发的一个混合负载的、开放的、统一大数据平台。

从HD、MPP DB到AI、数据智慧,

FusionInsight平台满足四大场景需求

华为FusionInsight平台围绕大数据提供了系列产品,最主要的是与Hadoop兼容的开源平台FusionInsight HD、MPP DB平台、数据挖掘和人工智能的平台以及数据智慧的平台。其中,FusionInsight HD是一个融合的大数据平台,满足各种用户需求同时混合负载、开放应用。

在企业当中,大数据平台的主体是Hadoop平台,其业务场景主要有离线处理、实时流处理、交互查询或数据集市和实时检索。这四个场景都是随着大数据的发展逐步出现的。

针对离线处理场景,FusionInsight HD由如下组件来实现:HDFS负责存储所有数据;Yarn负责调度在离线平台上运行的所有任务,从数据加工、数据挖掘到数据分析;Mapreduce和Hive专门处理离线的具体任务,其中Mapreduce处理非SQL类、Hive处理SQL类,对应的有另外叫离线处理引擎的两个组件——Spark和Spark SQL,作用与Mapreduce和Hive相同。借助上述组件,再加上数据采集组件(FusionInsight HD也提供了很多功能和组件),即可完成离线处理。

交互查询场景通常需要在三秒内实现。FusionInsight HD的Elk提供交互查询的引擎是存储和查询一体的组件,类似于Hadoop的组件但是功能更强。数据的采集可以用华为提供的工具,也可以用第三方的工具。

流处理场景核心的要求就是快,所以也叫实时流处理,一般用时在4到5秒之内。FusionInsight HD满足流处理方案主要是三个组件,Kafka接受数据做缓存,流处理的引擎——Spark Streaming与Fhink(前者速度相对较慢,但是成本偏低,后者成本稍高,但速度更快),Redis主要处理流处理之后的结果数据。

实时检索场景常见于运营商、银行、公安等行业,性能要求高,并发大,其查询条件比较简单且相对固定。用华为FusionInsight HD来实现,主要是Hbase和Solr/ESX,两个组件的组合可以满足低时延、高并发并且查询条件相对固定的检索。

不论是合作伙伴还是客户,都可以在FusionInsight HD平台上轻松地开发出满足四个业务场景的应用。

FusionInsight HD组件中的6大特色

FusionInsight HD有鲜明的特色。

01

统一的SQL接口

华为统一的SQL接口,可以支持各种组件进行统一查询,而不需要把数据从一个组件迁移到另一个组件。

02

FusionInsight SparkSQL

SparkSQL概念并非华为提出,但华为为社区做出了很多贡献,自己的产品能力更强,例如华为主导向Spark SQL贡献的CPU优化器,使得稳定性和高性能比社区的开源的SQL更强。

03

完全自研的SQL引擎Elk

让华为的SQL引擎更接近数据库甚至超过数据库,用户能够得到跟数据库一样甚至超过数据库交互体验效果。

04

Apach

CarbonData是华为主导的一个社区开展项目,参与者有国内众多互联网公司和大型企业,也有国外IT企业,其特点是对上层的应用无感知,提升了数据分析、数据查询的性能。

05

多级租户管理功能

FusionInsight提供的多级租户管理功能来匹配企业的组织架构,也就是说,可以有这种公司级的租户和管理员,有部门级的综合管理员,还有子部门租户和管理员,在给用户设置权限、设置资源配合有更方便的对应。

06

对异构设备支持。

FusionInsight提供了对异构设备支持,既支持高低配的设备在同一个大集群里,又支持开发应用可以指定某些应用运行在不同的机器上。

除此之外,华为FusionInsight还具备资源的灵活配置、多租户的能力、分级存储、超大集群、滚动升级、异构磁盘集群热点数据均衡、Flink流数据引擎、可视化的集群管理与运维、可信产品、可信开发流程等十大优势,是一个帮助用户以最低的成本解决最复杂问题的可信平台。

用户实践与启迪

中国60%的TOP 10金融、保险、银行,全球Top50运营商中的25%都用了华为的大数据平台;中国的平安城市建设有30%的客户选择了华为。华为在全球的项目、合作伙伴相当可观。

迄今为止,FusionInsight HD已经交付了700多个项目,产生了300多个合作伙伴和客户;这些项目覆盖到金融、公共安全、交通、政务、电信、电力、石油等各个行业。选择FusionInsight HD作为大数据的承载平台和处理平台,可以尽可能地将大数据价值发挥到极致。

---------------------
原文:https://blog.csdn.net/cqacry2798/article/details/86624672

原文地址:https://www.cnblogs.com/Little-Li/p/11150412.html

时间: 2024-10-12 08:03:43

FusionInsight,一个融合的大数据平台的相关文章

用Vue构建一个github“可视化大数据平台”-GitDataV,设计开发分享

写在前面 GitDataV,是一个github“大数据可视化平台”,通过它你可以更直观的看到你在github里的一些数据,(之所以打双引号,是因为我觉得这个还没到大数据可视化的程度).其实我在 上篇文章 分享的时候已经提到了这个想法,通过github提供的接口,做一个自己的“大数据分析页面”,所以我就花了几天晚上的时间,把这想法从设计到开发构建出来了,那么下面我就我个人的账号测试看看效果如下gif图 如果您感兴趣可以点击这里访问简单的:GitDataV网站(目前打包后有些小bug,但不影响正常使

一个常见大数据平台架构

一个常见的大数据平台架构 这是一个典型的大数据架构,且对架构进行了「分层」,分为「数据源层」.「数据传输层」.「数据存储层」.「编程模型层」和「数据分析层」,如果继续往上走的话,还有「数据可视化层」和「数据应用层」. 原文地址:https://www.cnblogs.com/doit8791/p/9630765.html

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像) 图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等: 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴: 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录

一.背景介绍 最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务.而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板. 然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台数据导出到CSV文件,然后再将CSV文件导入到ODPS平台.在这个过程中踩的坑有点多,所以想写篇文档作为记录. 二.大数据平台Hive数据导出到本地 编写export_data.sh脚本如下: #!/

大数据平台演进之路 | 淘宝 & 滴滴 & 美团

声明:本文参考了淘宝/滴滴/美团发表的关于大数据平台建设的文章基础上予以整理.参考链接和作者在文末给出. 在此对三家公司的技术人员无私奉献精神表示感谢,如果文章造成了侵权行为,请联系本人删除.本人在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程. 本文在未经本人允许情况下不得转载,否则追究版权责任. By 大数据技术与架构 场景描述:希望本文对那些正在建设大数据平台的同学们有所启发. 关键词:大数据平台 大数据平台是为了计算,现今社会所产生的越来越大的数

大数据平台架构组件选择与运用场景

一.大数据平台 大数据在工作中的应用有三种: 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴: 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储,之后才是数据分析和数据处理. 从整个大

阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,重新赋能轻量级大数据平台 阿里云自从17年8月提供HBas

大数据知识点分享:大数据平台应用 17 个知识点汇总

一.大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto.Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景. Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库Hive,可以作为大数据平台的标准数据仓库, 对于面向应用的MPP数据库,可以选择MYCAT(mySql的