什么是大数据架构?

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:

?批量处理大数据源。

?实时处理大数据。

?预测分析和机器学习。

精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做出明智的业务决策。

|| 大数据架构的好处

可用于分析的数据量每天都在增长。而且,流媒体资源比以往更多,其中包括流量传感器、健康传感器、事务日志和活动日志中提供的数据。但拥有数据只是业务成功的一半。企业还需要能够理解数据,并及时使用它来影响关键决策。使用大数据架构可以帮助企业节省资金并做出关键决策,其中包括:

?降低成本。在存储大量数据时,Hadoop和基于云计算的分析等大数据技术可以显著地降低成本。

?做出更快、更好的决策。使用大数据架构的流组件,企业可以实时做出决策。

?预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势。

|| 大数据架构的挑战

如果做得好,大数据架构可以为企业节省资金,并帮助预测重要的趋势,但它并非没有挑战。在处理大数据时,需要注意以下问题:

(1)数据质量

无论何时使用各种数据源,数据质量都是一项挑战。这意味着企业需要做的工作是确保数据格式匹配,并且没有重复数据或缺少数据将会使分析不可靠。企业需要先分析和准备数据,然后才能将其与其他数据一起进行分析。

(2)扩展

大数据的价值在于其数量。但是,这也可能成为一个重要问题。如果企业尚未设计架构以进行扩展,则可能会很快遇到问题。首先,如果企业不计划支持基础设施,那么支持基础设施的成本就会增加。这可能会给企业的预算带来负担。其次,如果企业不打算进行扩展,那么其性能可能会显著下降。这两个问题都应该在构建大数据架构的规划阶段得到解决。

(3)安全性

虽然大数据可以为企业提供对数据的深入了解,但保护这些数据仍然具有挑战性。欺诈者和***可能对企业的数据非常感兴趣,他们可能会尝试添加自己的伪造数据或浏览企业的数据以获取敏感信息。网络犯罪分子可以制作数据并将其引入其数据湖。例如,假设企业跟踪网站点击次数以发现流量中的异常模式,并在其网站上查找犯罪活动,网络犯罪分子可以***企业的系统,在企业的大数据中可以找到大量的敏感信息,如果企业没有保护周边环境,加密数据并努力匿名化数据以移除敏感信息的话,网络犯罪分子可能会挖掘其数据以获取这些信息。

|| 大数据架构因公司的基础设施和需求而异,但通常包含以下组件:

?数据源。所有大数据架构都从源代码开始。这可以包括来自数据库的数据、来自实时源(如物联网设备)的数据,以及从应用程序(如Windows日志)生成的静态文件。

?实时消息接收。如果有实时源,则需要在架构中构建一种机制来摄取数据。

?数据存储。企业需要存储将通过大数据架构处理的数据。通常,数据将存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。

?批处理和实时处理的组合。企业需要同时处理实时数据和静态数据,因此应在大数据架构中内置批量和实时处理的组合。这是因为可以使用批处理有效地处理大量数据,而实时数据需要立即处理才能带来价值。批处理涉及到长时间运行的作业,用于筛选、聚合和准备数据进行分析。

?分析数据存储。准备好要分析的数据后,需要将它们放在一个位置,以便对整个数据集进行分析。分析数据存储的重要性在于,企业的所有数据都集中在一个位置,因此其分析将是全面的,并且针对分析而非事务进行了优化。这可能采取基于云计算的数据仓库或关系数据库的形式,具体取决于企业的需求。

?分析或报告工具。在摄取和处理各种数据源之后,企业需要包含一个分析数据的工具。通常,企业将使用BI(商业智能)工具来完成这项工作,并且可能需要数据科学家来探索数据。

?自动化。通过这些不同的系统移动数据需要通常以某种形式的自动化进行编排。数据的摄取和转换、批量移动和流处理,将其加载到分析数据存储,最后获得洞察力必须在可重复的工作流程中,以便企业可以不断从大数据中获取洞察力。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

原文地址:https://blog.51cto.com/14217196/2367677

时间: 2024-08-08 14:04:26

什么是大数据架构?的相关文章

大数据架构开发 挖掘分析 Hadoop HBase Hive Storm Spark ZooKeeper Redis MongoDB 机器学习 云计算

培训大数据架构开发.挖掘分析! 从零基础到高级,一对一培训![技术QQ:2937765541] ----------------------------------------------------------------------------------------------------------------- 课程体系: 获取视频资料和培训解答技术支持地址 课程展示(大数据技术很广,一直在线为你培训解答!):    获取视频资料和培训解答技术支持地址

大数据架构开发 挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习 云计算 视频教程

培训大数据架构开发.挖掘分析! 从零基础到高级,一对一培训![技术QQ:2937765541] ------------------------------------------------------------------------------------------------------------------------------------------- 课程体系: 获取视频资料和培训解答技术支持地址 课程展示(大数据技术很广,一直在线为你培训解答!):    获取视频资料和培

大数据架构培训 视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算

培训大数据架构开发! 从零基础到高级,一对一培训![技术QQ:2937765541] ------------------------------------------------------------------------------------------------------------------------------------------- 课程体系: 获取视频资料和培训解答技术支持地址 课程展示(大数据技术很广,一直在线为你培训解答!): 获取视频资料和培训解答技术支持地

大数据架构-使用HBase和Solr将存储与索引放在不同的机器上

摘要:HBase和Solr可以通过协处理器Coprocessor的方式向Solr发出请求,Solr对于接收到的数据可以做相关的同步:增.删.改索引的操作,这样就可以同时使用HBase存储量大和Solr检索性能高的优点了,更何况HBase和Solr都可以集群.这对海量数据存储.检索提供了一种方式,将存储与索引放在不同的机器上,是大数据架构的必须品. 关键词:HBase, Solr, Coprocessor, 大数据, 架构 正如我的之前的博客“Solr与HBase架构设计”http://http:

大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言. 我们可以带着下面问题来阅读本文章: 1.hadoop都包含什么技术 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性 3. Spark与hadoop的关联是什么? 4. Storm与hadoop的关联是什么

大数据架构的典型方法和方式

大量的IT组织如今都已自己的数据架构,因为都依赖于传统的数据架构.处理多数据源已不再新鲜:这些架构已经连接了多维度的数据源例如 CRM 系统,文件系统和其他商用系统.主要运行的关系型数据库有 Oracle, DB2和Microsoft SQL. 如今,一般的数据分析周期是运行一些周期性脚本直接从数据库提取和处理数据.这些主要由 ETL工具如 Informatica 或者 Talend. 目标是将这些提炼的数据加载到数据仓库用于将来的分析. 不幸的是,这一方法在周期结束后可能不适合商务的需要了.这

大数据架构-东方国信

mark: 新方向:原来我们讲的 Iaas/Paas/Saas 三层平台,未来运营商的大数据平台将向更深层次方向演进,如:Paas ( T-Paas.D-Paas) mark架构中的新技术:kudu.Ceph.OGG(Oralce GoldenGate).RHadoop.TiDB mark自主研发XCloud框架:分布式执行计划引擎.分布式调度引擎.查询引擎.集群状态管理服务 借签东方国信的hadoop发行版: HBase读写优化 + 二级索引.BEH-Manager 集 cluster 管理监

大数据架构和模式(一)——大数据分类和架构简介

概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比如治理.安全性和策略.选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素. 这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务.因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案. 从分类大数据到选择大数据解

大数据架构和模式(三)——理解大数据解决方案的架构层

摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求.这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程.设备和人员提供业务洞察所需的分析. 概述 这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法.如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并且已经决定开始构建新的(或更新现有的)大数据解决方案,那么下一步就是

什么样的基础设施适合快速和大数据架构?

为大数据和较新的快速数据架构提供基础设施并不是一个饼干切割的问题.两者对硬件和软件基础设施都有着显著的调整或改变. 较新的快速的数据架构与大数据架构有着显著区别,并且快速数据提供了真正的联机事务处理工具.理解大数据和快速数据需求的变化能够帮助你做出正确的硬件和 软件选择. 大数据架构 相比企业在以往通常收集数据的方法,大数据是通过更大的数据容量,分析和获得更大的洞见的过程,大部分的数据(例如,社会媒体有关客户的数据)是可访问的 公共云.这一数据,反过来,强调快速访问,不再强调一致性,也造就了如H