什么是大数据系统架构

大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。

大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;

与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。

数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:

第一类:从来源来看分为内部数据和外部数据;

第二类:从结构来看分为非结构化数据和结构化数据;

第三类:从可变性来看分为不可变可添加数据和可修改删除数据;

第四类,从规模来看分为大量数据和小量数据。

大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。

从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。

大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司通过使用DKH,可以轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。

DKH,有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。

DKH,更是通过大快独有的中间件技术,将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

DKH,虽然进行了高度的整合,但是仍然保持了开源系统的全部优点,并与开源系统100%兼容,基于开源平台开发的大数据应用,无需经过任何改动,即可在DKH上高效运行,并且性能会有最高5倍的提升。

DKH,更是集成了大快的大数据一体化开发框架(FreeRCH), FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了10倍以上的开发效率的提升。

DKH的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。

DKH标准平台技术构架图

原文地址:http://blog.51cto.com/13636660/2087602

时间: 2024-08-30 06:34:14

什么是大数据系统架构的相关文章

“NASA”计划背后_阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据.据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在"爆炸式"增长的数据,其潜在巨大价值有待发掘.它作为一种新的能源,正在发生聚变,变革着我们的生产和生活,催生了当下大数据行业的热火朝天.但是我们如果不能对这些数据进行有序.有结构的分类组织和存储,如果不能有效利用并发掘产生价值,那么它也是一个数据灾难,它犹如堆积如山的垃圾,给我们企业带来的是极大的成本. 现实情况是:阿里集

FunData — 电竞大数据系统架构演进

电竞出现在人们视野中的频率越来越高了,此次选取FunData作为电竞数据平台,v1.0 beta版本主要提供由Valve公司出品的顶级MOBA类游戏DOTA2相关数据接口(详情:open.varena.com). 本文将介绍FunData的架构演进中的设计思路及其涉及的相关技术,包括大数据流处理方案.结构化存储转非结构化存储方案和数据API服务设计等. 电竞数据的丰富性从受众角度来看,可分为赛事.战队和玩家数据:从游戏角度来看,维度可由英雄.战斗.道具以及技能等组成:电竞数据的实时性包括赛前两支

DKhadoop大数据系统架构设计方案

大数据作为当下最为热门的事件之一,其实已经不算是很新鲜的事情了.如果是三五年前在讨论大数据,那可能会给人一种很新鲜的感觉.大数据作为当下最为重要的一项战略资源,已经是越来越得到国家和企业的高度重视,我们从大数据被上升到国家战略层面就可窥见一二! 现在关于大数据的知识分享可以说已经是铺天盖地了,作为新手入门想查询的信息基本都可以通过网络查询到一些.我对的大数据的了解其实也不是特别丰富,毕竟学习的时间也不是特别长.仅以我熟悉的DKhadoop为例给大家分享一些小知识,往对初学者有点小帮助就可以了.

数据系统架构——Lambda architecture(Lambda架构)

传统系统的问题 "我们正在从IT时代走向DT时代(数据时代).IT和DT之间,不仅仅是技术的变革,更是思想意识的变革,IT主要是为自我服务,用来更好地自我控制和管理,DT则是激活生产力,让别人活得比你好"--阿里巴巴董事局主席马云. 数据量从M的级别到G的级别到现在T的级.P的级别.数据量的变化数据管理系统(DBMS)和数仓系统(DW)也在悄然的变化着. 传统应用的数据系统架构设计时,应用直接访问数据库系统.当用户访问量增加时,数据库无法支撑日益增长的用户请求的负载时,从而导致数据库服

迈向大数据架构师 - 架构师转型方法与架构设计理论

迈向大数据架构师 - 架构师转型方法与架构设计理论课程学习地址:http://www.xuetuwuyou.com/course/233课程出自学途无忧网:http://www.xuetuwuyou.com课程摘自<大数据系统架构分析师成长之路>:http://www.xuetuwuyou.com/course/200 1.课程目标通过本课程的学习,让学员了解到什么是系统架构师,什么大数据系统架构师,两者的区别与联系,程序员与架构师的不同,程序员如何向架构师转型,一个架构师工作日常及必须修炼的

大数据系统和分析技术综述【程学旗】

本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2 代表性的处理系统 1.4 图数据处理系统 1.4.1 图数据的特征及典型应用 1.4.2 代表性图数据处理系统 1.5 小 结 2 大数据分析 2.1 深度学习 2.2 知识计算 2.3 社会计算 2

如何打造100亿SDK累计覆盖量的大数据系统

作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外).个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战. 首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别.其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表.虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战.另外,推送业务并不

分布式大数据系统巧实现,全局数据调度管理不再难

背景 看到这个题目,我们会有很多疑问:什么是分布式大数据系统中的全局数据管理?为什么要从全局对数据进行管理?这种对数据从全局进行分布和调度的策略是在什么样的背景下产生的?如果我们不解决全局数据管理的问题,分布式大数据系统中将会面临一些什么样的风险? 总的来说:基于大数据,云计算的需求,加快了分布式系统的发展:开源分布式系统的发展,让海量数据存储和处理变的简单:产生了很多为了解决特定问题,服务特定业务的专有集群:集群之间数据无法共享,存在冗余甚至重复,迁移和复制代价高昂,同时还面临数据校验,验证和

大数据系统学习零基础入门到精通加项目实战2017最新全套视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv