企业级大数据处理方案03-数据流程

数据处理过程分为数据挖掘和数据分析，广义上说数据分析泛指整个过程，然而数据分析大的流程大致相同，如图：

数据挖掘一般都要经过过滤、漂洗、匹配三个过程：

1.过滤:主要将数据中的不适合分析的数据过滤掉，就好比产品流水线的残次品一样，对数据进行组粒度的过滤，其规则可按数据大小，字符长短；

2.漂洗：也称格式化,对数据进行分块，数据也有组成的，有时间、数据源、数据体等等，就好比头、身体、脚一样。将数据变成我们想要的格式，此过程也是打标签的过程，意将数据分类处理。

3.匹配：匹配就是抽取字段，将数据中的有用的地方抽取出来。（正则处理）由于数据的分类太多，无法完成所有的数据的匹配，这就需要机器自动识别。注意机器学习的结果并不精准，是故数据分开存储。

数据挖掘的过程也就是无格式数据和半格式化数据的格式化过程，换言之就是讲数据规则化。

数据挖掘过程结束后，就是数据分析阶段，其过程如图：

数据分析就是sql聚合操作，将数据格式化就是为了能够用sql语言去处理数据，换句话说就是，想怎么分析就怎么分析，只要你会操作数据库。

然而数据分析也有多层面的：按照维度划分为一维、二维、三维分析。

一维分析主要基于表查询，多个字段、单个字段、topN、分组等等的聚合函数

二维分析主要基于时间，为什么这么说呢，基于时间的分析就会复杂，多与预测有关系（预测那肯定不能人想，得机器想）

三维分析主要基于对象，对象怎么说，是将数据模型化，数据模型化就好比Java类一样，构造虚拟实体，基于实体的分析。

上述维度基于上一维度来说的。

有没有四维、五维，有木肯定有木，举个运维的例子：

例子：服务器运行情况

服务器A 2016-07-09 12:00:00 CPU：90% Mem：90%

应用程序A 2016-07-09 12:00:00 CPU：40% Mem：40% （men>60%才能正常运行）

应用程序B 2016-07-09 12:00:00 CPU：40% Mem：40% （men>30%才能正常运行）

服务器A系统 2016-07-09 12:00:00 CPU：10% Mem：10%

所以应用程序A就会运行不正常

整个数据处理流程的完整流程图：

时间： 2024-08-02 12:26:02

企业级大数据处理方案03-数据流程的相关文章

企业级大数据处理方案-01

企业级大数据处理方案有三种业务场景: 1.离线处理:(mapreduce(第一代).sparksql(第二代)) 2.实时处理:(数据库操作.storm) 3.准实时处理.(spark Streaming) mapreduce与spark对比 mr与spark优缺点对比:(一) a.mapreduce频繁的数据读写,使数据处理速度滞后 b.spark所有计算在内存中消除了,磁盘读写此快其一 mr与spark优缺点对比:(二) a.mapreduce每一个计算过程与上一个计算过程无血统继承 b.s

企业级大数据处理方案-02.环境决定需求、性能决定选型

上讲,讲述了大概九种的技术种类以及他们的领域.那么既然有吃饭的,那就必须有做饭的.因此大数据技术结构的选型,必须有的组成部分至少三种(来源.计算.存储) 最简单的数据处理架构: 最少单元的数据处理方案,当然这个不是最好的,为什么呢,问题: 1.流式处理数据(Streaming)时,数据量小时,数据存储到HDFS中,20M或者100K,这种情况是有的.这种计算结果的存储极大浪费了存储空间.HDFS不适用于大批量小文件的存储,(只是不适用,不是不能) 2.数据量大时,数据处理不过来(receiver

下一代大数据处理引擎，阿里云实时计算独享模式重磅发布

摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级.(观看实时计算发布会直播:https://yq.aliyun.com/live/591) 独享模式优点更加突出1.UDX开放:实时计算的共享模式是多个用户共享一个物理机群,在网络/磁盘层面没有办法做到完全隔离. 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/C

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景首先感谢这次博客的主办方CSDN以及在初赛为我投票的网友们,你们的支持是Garvin前进的动力.本文思路的依据来源于本次天猫大数据竞赛长达三个月的参赛体验.博主作为一个在校的学生,可能如果不是这次比赛,很难能够拥有一套完整的云环境来对TB级的数据进行分析和实践.下面是博主的一点心得,在此抛砖引玉,希望能给大家在云端大数据处理方面带来一点启示. 2.对于大数据和云的一些误区 (1)误区一:云的计算能力是无穷的,不用考虑效率? 我们都知道,云计算的本质就是分布式计算,将现有的工作量,分割开

敏捷大数据流程

敏捷大数据流程利用了数据科学的迭代性本质和高效的工具,从数据中构建和抽取高阶的结构和价值. 数据产品团队技能多样,会产生多种可能性.由于团队覆盖了大量的领域,构建web 产品也自然是一个协作的过程.团队需要方向才能协作:每个成员都应该热情饱满而又顽强地追求一个共同的目标.要明确这个方向,需要一个共识. 在协作中达成共识是开发软件过程中最难的一个环节.软件开发团队最大的风险就是根据不同的蓝图进行开发.相互抵触的愿景会让产品缺乏专注,最终失败. 有时在实际开发应用之前会做一些样品(mock):产品经

大数据技术原理与应用——大数据处理架构Hadoop

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进

Spark 2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）

Spark 2.x企业级大数据项目实战(实时统计.离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取码: 9n1x 本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo.课程涵盖了离线分析.实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop.Spark.HBase.Kafka.Redis.MySQL等相关大数据技术,并实际落地 . 本门课程全程实操,不用担

开源大数据处理系统/工具大全

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

一共81个，开源大数据处理工具汇总（下）

接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理.它为日志的