大数据架构和模式(一)大数据分类和架构简介

本文收藏于:http://kb.cnblogs.com/page/510978/

作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:19  阅读: 3294 次  推荐: 8   原文链接   [收藏]

摘要:大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。以下操作是一个良好的开端:依据必须处理的数据的格式、要应用的分析类型、使用的处理技术,以及目标系统需要获取、加载、处理、分析和存储数据的数据源,对大数据问题进行分类。

  相关文章:

   大数据架构和模式(二)——如何知道一个大数据解决方案是否适合您的组织

   大数据架构和模式(三)——理解大数据解决方案的架构层

   大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式

   大数据架构和模式(五)——对大数据问题应用解决方案模式并选择实现它的产品

  概述

  大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。

  这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。

  从分类大数据到选择大数据解决方案

  如果您花时间研究过大数据解决方案,那么您一定知道它不是一个简单的任务。本系列将介绍查找满足您需求的大数据解决方案所涉及的主要步骤。

  我们首先介绍术语 “大数据” 所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。最后,对于每个组件和模式,我们给出了提供了相关功能的产品。

  第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍以下主题:

  • 定义大数据解决方案的各层和组件的逻辑架构
  • 理解大数据解决方案的原子模式
  • 理解用于大数据解决方案的复合(或混合)模式
  • 为大数据解决方案选择一种解决方案模式
  • 确定使用一个大数据解决方案解决一个业务问题的可行性
  • 选择正确的产品来实现大数据解决方案

  依据大数据类型对业务问题进行分类

  业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。

  表 1. 不同类型的大数据业务问题
业务问题 大数据问题 描述
公用事业:预测功耗 机器生成的数据
公用事业公司推出了智慧仪表,按每小时或更短的间隔定期测量水、天然气和电力的消耗。这些智慧仪表生成了需要分析的大量间隔数据。

公用事业公司还运行着昂贵而又复杂的大型系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。

要提高操作效率,该公司必须监视传感器所传送的数据。大数据解决方案可以使用智慧仪表分析发电(供应)和电力消耗(需求)数据。

电信:客户流失分析 Web 和社交数据

交易数据


电信运营商需要构建详细的客户流失模型(包含社交媒体和交易数据,比如 CDR),以跟上竞争形势。

流失模型的值取决于客户属性的质量(客户主数据,比如生日、性别、位置和收入)和客户的社交行为。

实现预测分析战略的电信提供商可通过分析用户的呼叫模式来管理和预测流失。

市场营销:情绪分析 Web 和社交数据
营销部门使用 Twitter 源来执行情绪分析,以便确定用户对公司及其产品或服务的评价,尤其是在一个新产品或版本发布之后。

客户情绪必须与客户概要数据相集成,才能得到有意义的结果。依据客户的人口统计特征,客户反馈可能有所不同。

客户服务:呼叫监视 人类生成的
IT 部门正在依靠大数据解决方案来分析应用程序日志,以便获取可提高系统性能的洞察。来自各种应用程序供应商的日志文件具有不同的格式;必须将它们标准化,然后 IT 部门才能使用它们。

零售:基于面部识别和社交媒体的个性化消息 Web 和社交数据

生物识别


零售商可结合使用面部识别技术和来自社交媒体的照片,根据购买行为和位置向客户提供个性化的营销信息。

此功能对零售商忠诚度计划具有很大的影响,但它具有严格的隐私限制。零售商需要在实现这些应用程序之前进行适当的隐私披露。

零售和营销:移动数据和基于位置的目标 机器生成的数据

交易数据


零售商可根据位置数据为客户提供特定的促销活动和优惠券。解决方案通常旨在在用户进入一个店铺时检测用户的位置,或者通过 GPS 检测用户的位置。

位置数据与来自社交网络的客户偏好数据相结合,使零售商能够根据购买历史记录针对性地开展在线和店内营销活动。通知是通过移动应用程序、SMS 和电子邮件提供的。

FSS、医疗保健:欺诈检测 机器生成的数据

交易数据

人类生成的


欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性。解决方案可实时分析事务,生成建议的立即执行的措施,这对阻止第三方欺诈、第一方欺诈和对帐户特权的蓄意滥用至关重要。

解决方案通常旨在检测和阻止多个行业的众多欺诈和风险类型,其中包括:

  • 信用卡和借记卡欺诈
  • 存款帐户欺诈
  • 技术欺诈
  • 坏账
  • 医疗欺诈
  • 医疗补助计划和医疗保险欺诈
  • 财产和灾害保险欺诈
  • 工伤赔偿欺诈
  • 保险欺诈
  • 电信欺诈

  按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。

  我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:

  • 内容的格式
  • 数据的类型(例如,交易数据、历史数据或主数据)
  • 将提供该数据的频率
  • 意图:数据需要如何处理(例如对数据的临时查询)
  • 处理是否必须实时、近实时还是按批次执行。

  使用大数据类型对大数据特征进行分类

  按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:

  • 分析类型 — 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:

    • 欺诈检测;分析必须实时或近实时地完成。
    • 针对战略性业务决策的趋势分析;分析可采用批量模式。
  • 处理方法 — 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。
  • 数据频率和大小 — 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:
    • 按需分析,与社交媒体数据一样
    • 实时、持续提供(天气数据、交易数据)
    • 时序(基于时间的数据)
  • 数据类型 — 要处理数据类型 — 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。
  • 内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。
  • 数据源 — 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。
  • 数据使用者 — 处理的数据的所有可能使用者的列表:
    • 业务流程
    • 业务用户
    • 企业应用程序
    • 各种业务角色中的各个人员
    • 部分处理流程
    • 其他数据存储库或企业应用程序
  • 硬件 — 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。

  图 1 描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。

  图 1. 大数据分类

  结束语和致谢

  在本系列剩余部分中,我们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。我们将提供数据源的完整列表,介绍专注于大数据解决方案的每个重要方面的原子模式。我们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在广泛使用的用例与各个产品之间建立对应关系。

  感谢 Rakesh R. Shinde 在定义本系列的整体结构上提供的指导,以及对本系列的审阅和提供的宝贵评论。

时间: 2024-10-27 17:46:39

大数据架构和模式(一)大数据分类和架构简介的相关文章

拓扑学——探寻大数据的内在模式

拓扑学——探寻大数据的内在模式 点击上方“大数据文摘”可以订阅哦! 大数据文摘作品,欢迎个人转发朋友圈:其他机构.自媒体转载,务必后台留言,申请授权. 作者:Kevin Knudson编译:数码叮叮 校对:于丽君,康欣 编辑:Ivy 如果我们不能明白如何分析它,这些数据有什么好? 大数据正被媒体.工业和政府所瞩目.公司和实验室不停地产生大量的数据,从气象资料到携带电话的使用到医疗记录,与每件事相关.而每一套数据又和成百个变量相关. 这些数据量之大.规模之复杂,用传统的方式来寻找数据之间的模式已不

大数据技术原理与应用——大数据处理架构Hadoop

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像) 图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会

【揭秘】大数据程序员这9大行业上班最赚钱!

总是听说大数据就业前景最好,那么大数据学完后到底做啥呢,应该把自己放在哪个位置最合适. 在大数据成为趋势,成为国家战略的今天,如何最大限度发挥大数据的价值成为人们思考的问题.无论是对于互联网企业.电信运营商还是数量众多的初创企业而言,大数据的变现显得尤为重要.谁最先一步找到密码,谁就能够抢占市场,赢得发展.大数据变现,这里有9种商业模式,大数据程序员可以来看看自己更适合哪些行业? 前几年,国内大数据产业讨论较多.落地较少,商业模式处于初探期,行业处于两种极端: 一种是过热的浮躁带来了一定的泡沫和

大数据究竟是什么?大数据有哪些技术呢?

大数据究竟是什么?大数据有哪些技术呢?科多大数据来带你看看大数据的发展趋势是什么.今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点.""非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值.""你千万不要想着拿数据去改进一个业务,这不是大数据.你一定是去做了一件以前做不了的事情."有人把数据比喻为蕴藏能量的煤矿.煤炭按照性质有焦煤.无烟煤.肥煤.贫煤等分类,而露天煤矿.深山煤矿的挖掘成本又不一样.与此类似,大数

从BAT大数据工程师那里总结的大数据学习方法

认识大数据 什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据.NO!这里的数据只能说比较大,但却不能称之为大数据.百度百科上给出了很明确的解释"大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产." 在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家

从大数据工程师那里知道的大数据学习方法

首先要认识大数据 什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据.NO!这里的数据只能说比较大,但却不能称之为大数据.百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.” 在这里还是要推荐下我自己建的大数据学习交流群:142974151,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是

蔡先生论道大数据之三 , 国内互联网公司的大数据应用

上章,我简单描述了国外IT巨头在大数据方面的应用和战略,本章我们来看一下国内互联网公司如何理解大数据的. 随着互联网各类网络应用的不断深入,中国的大数据技术与应用的快速发展已成为不容忽视的事实.目前国内各IT企业,特别是大型互联网企业,都开始对大数据的存储.处理和应用进行战略布局. 国内BAT公司:) 百度 百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多.2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据.过去10年,百度网页搜索

大数据行业里的两大误区

http://www.cognoschina.net/club/thread-68835-1-1.html http://www.cognoschina.net/club/thread-68837-1-1.html 大数据行业里的误区 大数据这个词,恐怕是近两年IT界炒的最热的词汇之一了,各种.会议,言必谈大数据,“大数据”这个词,在IT界已经成了某果一样的“街机”或者叫 “街词”,不跟风说两句“大数据长,大数据短”都不好意思跟人说自己是搞IT的.从某种程度来讲,大数据这个“圈”太乱了,一点不比