学习大数据基础框架hadoop需要什么基础

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB)级别。

传统的数据处理方法是:随着数据量的加大,不断更新硬件指标,采用更加强大的CPU、更大容量的磁盘这样的措施,但现实是:数据量增大的速度远远超出了单机计算和存储能力提升的速度。

而“大数据”的处理方法是:采用多机器、多节点的处理大量数据方法,而采用这种新的处理方法,就需要有新的大数据系统来保证,系统需要处理多节点间的通讯协调、数据分隔等一系列问题。

总之,采用多机器、多节点的方式,解决各节点的通讯协调、数据协调、计算协调问题,处理海量数据的方式,就是“大数据”的思维。其特点是,随着数据量的不断加大,可以增加机器数量,水平扩展,一个大数据系统,可以多达几万台机器甚至更多。

Hadoop最初主要包含分布式文件系统HDFS和计算框架MapReduce两部分,是从Nutch中独立出来的项目。在2.0版本中,又把资源管理和任务调度功能从MapReduce中剥离形成YARN,使其他框架也可以像MapReduce那样运行在Hadoop之上。与之前的分布式计算框架相比,Hadoop隐藏了很多繁琐的细节,如容错、负载均衡等,更便于使用。

Hadoop也具有很强的横向扩展能力,可以很容易地把新计算机接入到集群中参与计算。在开源社区的支持下,Hadoop不断发展完善,并集成了众多优秀的产品如非关系数据库HBase、数据仓库Hive、数据处理工具Sqoop、机器学习算法库Mahout、一致性服务软件ZooKeeper、管理工具Ambari等,形成了相对完整的生态圈和分布式计算事实上的标准。

大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:

数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka

数据采集:DK.hadoop

数据处理模块:DK.Hadoop、spark、storm、hive

机器学习和AI:DK.Hadoop、spark

NLP模块:上传服务器端JAR包,直接支持

搜索引擎模块:不独立发布

大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司通过使用DKH,可以轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。

DKH,有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。

DKH,更是通过大快独有的中间件技术,将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

DKH,虽然进行了高度的整合,但是仍然保持了开源系统的全部优点,并与开源系统100%兼容,基于开源平台开发的大数据应用,无需经过任何改动,即可在DKH上高效运行,并且性能会有最高5倍的提升。

DKH,更是集成了大快的大数据一体化开发框架(FreeRCH), FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了10倍以上的开发效率的提升。

DKH的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。

DKH标准平台技术构架图

原文地址:https://www.cnblogs.com/adnb34g/p/8566168.html

时间: 2024-11-02 15:39:57

学习大数据基础框架hadoop需要什么基础的相关文章

大数据怎么学习,在学习大数据之前,需要具备什么基础?

大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生.IT.金融.农业.通信等方面都有广泛应用.未来5年大数据行业呈井喷趋势,人才需求火爆,2018年大数据人才缺口更是高达900万.以后想要做大数据相关的工作,需要学习哪些技术知识? 罗马不是一天建成的,大数据工程师也不是短时间能锻造的.想要成为大数据开发工程师,也要看你是否骨骼惊奇,天赋过人!在学习大数据之前,你还需要有一定的基础!大数据学习资料分享群119599574 一.学习大数据需要的基础 1.java SE.EE(SS

学习大数据技术需要掌握哪些Java基础

大数据产业已进入发展的"快车道",急需大量优秀的大数据人才作为后盾.如果你是Java编程出身,那学习大数据自然是锦上添花:但如果你是刚刚接触大数据技术,还在Java编程基础阶段,这篇文章非常值得你看! 首先,我们学习大数据,为什么要先掌握Java技术? Java是目前使用非常广泛的编程语言,它具有的众多特性,特别适合作为大数据应用的开发语言. Java不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个特征.Java语

学习大数据需要掌握的知识(不得不看)

大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业.大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能.学习大数据需要掌握哪些知识? 1.学习大数据首先要学习Java基础 怎样进行大数据学习的快速入门?学大数据课程之前要先学习一种计算机编程语言.Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言.而且不论是学习hadoop,还是数据挖掘,都需要有编程语言作为基础.因此,如果想学习大数据开发,掌握Java基础是必不可少的.

一步一步学习大数据系列

概要 一步一步学习大数据系列 包括: 一步一步学习大数据系列之 Linux 一步一步学习大数据系列之 Linux 01-Linux 系统安装 02-Linux 图形界面及文件系统结构介绍 03-局域网工作机制和网络地址配置 04-vmware 虚拟网络的配置 05-Linux 网络配置及 CRT 远程连接06- Linux常用命令 09-SSH免密登录配置. 10-CRT 工具设置 11 -more service- chkconfig 命令12.Linux软件安装 一步一步学习大数据系列之 H

学习大数据需要具备四种条件?你具备几种?

现在学习大数据的越来越多了,可是你知道学习大数据需要什么条件吗?我来说说四个必备条件. 大数据现已成为年×××展的趋势,很多人纷纷挑选学习大数据,想要进入大数据职业.大数据技术体系巨大,包含的常识较多,体系的学习大数据能够让你全面把握大数据技术.学习大数据需求把握哪些常识? 1.学习大数据首先要学习Java根底 怎样进行大数据学习的快速入门?学大数据课程之前要先学习一种核算机编程言语.Java是大数据学习需求的编程言语根底,由于大数据的开发根据常用的高档言语.而且不论是学习hadoop,仍是数据

零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台.今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备.狭义上,Hadoop就是单独指代Hadoop这个软件: 广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件. Hadoop的起源 1.2001年,Nutch问世.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,但随着抓取

0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己? 首先从字面来了解一下大数据 大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据的5V特点(IBM提出):Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracit

有Java基础如何学习大数据?

有没有想过一个问题,计算机编程语言众多,常用的编程语言有Java,Python等,在开始学习大数据之前都会选择学习Java,那Java到底好在哪呢?为什么学大数据之前要先学Java呢? 大数据人才越来越多的受到社会和企业的青睐,很多想要学习大数据的新人在开始的时候都会觉得自己学的就是大数据,但是真的开始学大数据了,反而发现首先开始的是Java的学习,学大数据前为什么要先学Java?大数据和Java其实有着密不可分的关系. 零基础刚接触大数据的学员都知道,学习大数据课程之前,都需要先熟悉掌握一种计

最新2019学习路线,零基础怎么系统学习大数据?

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术.解决大数据问题的核心是大数据技术.零基础怎么系统学习大数据?首先我们先了解一下什么是大数据. 最新2019学习路线,零基础怎么系统学习大数据?"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理.大数据工程师需要学习哪些知识?创一个小群,供大家学习交流聊天如果有对学大数据方面有什么疑惑问题的,或者有什么想说的想聊的大家可以一起交流学习一起进步呀.也希望大家