如何实现大数据系统

经常有人问我有关“大数据”的问题,而且多半情况下我们似乎是在各种不同的抽象和理解级别进行交谈。实时 和高级分析 之类的词语频频现身,并且我们总是立即开始谈论产品,这通常并不是一个好主意。

希望将类似本文的技术文章发送到您的收件箱吗?请订阅系统社区新闻快讯 — 仅包含面向系统管理员和开发人员的技术内容。

因此我们来回顾一下,从一个用例的角度出发来看看大数据的含义,然后我们可以将该用例与一个可用的高级基础架构图对应起来。这些全部完成之后,(我希望)您将开始看到一种模式并开始了解实时 和分析 之类的词的适用场合。

业务方面的用例

我不打算从头开始发明什么,而是观察了描述 Smartmall 的主题演讲用例(在该视频中您可以看到一个智能商城的漂亮动画和说明)。

图 1. Smartmall

Smartmall 背后的思想通常称为多渠道客户交互,意即“我如何通过其智能手机与我的实体店中的客户交互”?相比要求客户掏出智能手机在互联网上浏览价格,我们宁愿主动推动其行为。

Smartmall 的目标相当直接:

  • 提高商城内店铺的流量。
  • 增加每次访问和每笔交易的收益。
  • 降低只看不买的百分比。

您需要什么?

在技术方面,您可能需要:

  • 提供个人相关位置信息的智能设备
  • 用于实时交互和分析的数据收集点和决策点
  • 用于面向批处理的分析的存储和处理工具

在数据集方面,您可能至少需要:

  • 与个人和个人识别设备(电话、会员卡等)相关联的客户个人信息
  • 与详细的购买行为相关联并与优惠券使用、首选产品及其他产品推荐等要素相关联的非常细粒度的客户细分

高级组件

一图胜千言,图 2 同时显示了实时决策基础架构以及批量数据处理和模型生成(分析)基础架构。

图 2. 示例基础架构

第一步,这个理论上最重要的一步,以及最重要的数据块关乎客户身份识别。在本例中,第 1 步是携带智能电话的用户走进商城这一实际情况。通过识别这一情况,我们触发第 2a 步和第 2b 步中在用户个人信息数据库中的查询。

我们稍后将略微详细地讨论这一点,一般来说,这是一个利用索引结构来快速、高效执行查询的数据库。一旦查找到实际客户,就将此客户的个人信息提供给我们的实时专家系统(第 3 步)。

该专家系统(定制的软件或 COTS 软件)中的模型评估提供的数据和个人信息并决定要采取的行动(如发送优惠券)。所有这些都是实时发生的,记住,网站只需数毫秒即可完成这项工作,而我们的智能商城在 1 秒左右完成这项工作就可以了。

为了构建精确的模型(许多典型的大数据热门词汇正是来源于此),我们在图中添加一个面向批处理的大规模处理场。图 3 下半部分显示如何利用包括 Apache Hadoop 和 Apache Hadoop 分布式文件系统 (HDFS) 在内的一组组件来创建购买行为模型。传统上,我们利用数据库(或数据仓库 [DW])来实现这一目的。现在我们还是这样,但现在我们在数据库/数据仓库之前利用一个基础架构来跟踪更多数据并不断地重新评估所有数据。

图 3. 创建购买行为模型

说一下数据源。一个重要元素是销售点 (POS) 数据(在关系数据库中),您需要将其与客户信息(来自网店、手机或会员卡)相关联。图 2 和图 3 中包含客户个人信息的 NoSQL 数据库显示网店元素。非常重要的是,要确保此多渠道数据与 Web 浏览、购买、搜索和社交媒体数据相集成(并且执行重复数据删除,但这是题外话)。

一旦完成数据关联和数据集成,就可以描绘出个人的行为。本质上,大数据使我们能够在个人一级进行极细微的细分 — 实际上是对数百万客户中的每一位!

这一切的最终目标是构建实时决策引擎中使用的高度精确的模型。此模型的目标与上述业务目标直接相关。换句话说,如何在客户来到商城时向客户发送优惠券,让客户前往您的店铺进行消费?

详细的数据流和产品思路

现在,如何通过实际产品实现这一目标,并且数据在此生态系统中如何流动?下面几节为您指出答案。

第 1 步:收集数据

要查找数据、收集数据以及根据数据作出决策,您需要实现一个分布式系统。因为设备基本上在不停地发送数据,您需要能够以较小的延迟加载数据(收集或获取数据)。这项工作在收集点完成,如图 4 所示。这里也是为实时决策而评估数据的位置。稍后我们再回到收集点。

图 4. 收集点

来自收集点的数据流入 Hadoop 集群(在本例中,即大数据机)。您可能还会将其他数据提供给此设备。例如,图 4 所示的社交信源将来自分择相关哈希标记的数据聚合者(通常是一家公司)。然后使用 Flume 或 Scribe 将数据加载到 Hadoop。

第 2 步:整理和移动数据

下一步是添加数据(社交信源、用户个人信息和使结果与分析相关所需的任何其他数据)和开始整理、解释和理解数据。

图 5. 整理和解释数据

例如,将用户个人信息添加到社交信源和添加位置数据以建立对各用户以及用户相关模式的全面了解。通常,这使用 Apache Hadoop MapReduce 来完成。用户个人信息通过 Hadoop InputFormat 接口从 Oracle NoSQL 数据库批量加载,因此被添加到 MapReduce 数据集。

为了将所有这些与 POS 数据、客户关系管理 (CRM) 数据以及各种其他交易数据结合,您可能会使用 Oracle Big Data Connectors 将精简的数据高效地移动到 Oracle 数据库。然后您可以使用 Oracle 商务智能云服务器 (Exalytics) 或业务智能 (BI) 工具或者(这是比较有趣的地方)通过数据挖掘之类的工具,对您所跟踪的数据有一个全面的了解。

图 6. 移动精简数据

第 3 步:分析数据

最后一个阶段(这里称为“分析”)是创建数据挖掘模型和统计模型以便用于产生合适的优惠券。这些模型真正是皇冠上的明珠,因为它们让您能够基于非常精确的模型实时进行决策。模型进入收集点和决策点以作用于实时数据,如图 7 所示。

图 7. 分析数据

在图 7 中,您可以看到专家引擎中使用了一个灰色的模型。该模型描述和预测客户个人的行为并基于这些预测确定要采取的行动。

总结

以上所述是对“大数据”和实时决策的端到端观察。大数据让我们能够利用海量的数据和处理资源得出精确的模型。它还让我们能够确定以前无法预期的种种事情,从而产生更精确的模型以及新思想、新业务等等。

您可以使用基于 Oracle 技术的 Oracle 大数据机实现在此所展示的整个解决方案。然后就只需找几个了解编程模型的人即可创建这些皇冠上的明珠。

时间: 2024-11-05 09:43:18

如何实现大数据系统的相关文章

三种硬件平台运行Laxcus大数据系统的表现

从2.0版本开始,Laxcus大数据管理系统开始支持POWERPC.X86.ARM三种平台.其中X86和ARM又分为32位和64位两种,POWERPC是纯64位,所以实际上共有五种平台,操作系统统一使用Linux.下面就总结一下Laxcus在这些系统平台上的表现. POWERPC:现在Laxcus生产环境还没有这个平台,不是不部署,是能提供POWERPC集群平台的企业和公司,在国内没有,究其原因,是这个平台成本太高,没有企业和公司肯去负担这个成本,所以,运行POWERPC版本的Laxcus大数据

JAVA实战教程_JAVA案例开发之JAVA开发微信二维码大数据系统02

hello,上一次我们上传了第一个课时的视频,现在当然是上传第二个视频咯. 视频简介:本视频是关于JAVA实战教程,JAVA开发微信二维码大数据系统.这个JAVA开发案例可以协助一些从零基础开始学习JAVA,正处于理论走完实践的路程上的初学者能接触到实际开发项目过程中,在实践当中巩固自己的JAVA方面的知识外,更能在项目案例当中学到解决在JAVA学习或者实践当中遇上问题的一些解决方式.仅供参考!自设交流群:457036818,欢迎一起加入交流. PS:该案例共十个课时,本小节为第二课时 课程原地

“NASA”计划背后_阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据.据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在"爆炸式"增长的数据,其潜在巨大价值有待发掘.它作为一种新的能源,正在发生聚变,变革着我们的生产和生活,催生了当下大数据行业的热火朝天.但是我们如果不能对这些数据进行有序.有结构的分类组织和存储,如果不能有效利用并发掘产生价值,那么它也是一个数据灾难,它犹如堆积如山的垃圾,给我们企业带来的是极大的成本. 现实情况是:阿里集

大数据系统和分析技术综述【程学旗】

本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2 代表性的处理系统 1.4 图数据处理系统 1.4.1 图数据的特征及典型应用 1.4.2 代表性图数据处理系统 1.5 小 结 2 大数据分析 2.1 深度学习 2.2 知识计算 2.3 社会计算 2

如何打造100亿SDK累计覆盖量的大数据系统

作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外).个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战. 首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别.其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表.虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战.另外,推送业务并不

5月17日云栖精选夜读:分布式大数据系统巧实现,全局数据调度管理不再难

本文从背景.分布式文件系统.容错机制.分布式节点距离计算法则.数据分布策略.分布式计算调度.跨IDC集群规划的两种方式.ODPS跨集群数据依赖等方面深度介绍了分布式大数据系统中全局数据调度和管理. 大数据技能 分布式大数据系统巧实现,全局数据调度管理不再难 作者:大数据史记 大规模数据的分布式机器学习平台 作者:大数据史记 重磅,企业实施大数据的路径 作者:王二辉   发表在:大数据文摘 知识整理 PHP异步的玩法 作者:sibenx Java 异常处理 作者:秦关古月 Php开发ZendStu

分布式大数据系统巧实现,全局数据调度管理不再难

背景 看到这个题目,我们会有很多疑问:什么是分布式大数据系统中的全局数据管理?为什么要从全局对数据进行管理?这种对数据从全局进行分布和调度的策略是在什么样的背景下产生的?如果我们不解决全局数据管理的问题,分布式大数据系统中将会面临一些什么样的风险? 总的来说:基于大数据,云计算的需求,加快了分布式系统的发展:开源分布式系统的发展,让海量数据存储和处理变的简单:产生了很多为了解决特定问题,服务特定业务的专有集群:集群之间数据无法共享,存在冗余甚至重复,迁移和复制代价高昂,同时还面临数据校验,验证和

大数据系统学习零基础入门到精通加项目实战2017最新全套视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

未来人脸大数据系统发展的三大趋势!

随着机器视觉技术及其相关技术的不断提升,无论是图像结构化的算法还是算力均在进步,虽然算法的进步已有限.而人工智能技术的螺旋上升极有可能会将技术热点从图像识别带入到机器人.语言识别.自然语言处理和专家系统这四个大领域中,因此未来人脸大数据系统的发展将主要呈现以下三大趋势: 首先,人脸大数据系统将进一步凸显"大数据"的能力,一线厂商与二三级厂商在"人脸"领域的差距将进一步缩小,而对结构化数据的实时.高并发的处理,将成为下一个技术增长点.同时,作为2018年的延续,技术与

大数据系统数据采集产品的架构分析

任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 数据展现(可视化,报表和监控) 其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出.这其中包括: 数据源多种多样 数据量大,变化快 如何保证数据采集的可靠性的性能 如何避免重复数据 如何保证数据的质量 我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它们是如何做到高可靠,高性能和高扩展. Apache Flume Flume 是Apache旗下,开源,高可靠,高扩展,