大数据核心技术

    Common:在2.2.0以前的大多数版本中,包含HDFS、MapReduce和其他项目公共内容,从2.2.0开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop
Common。

    Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

    MapReduce:并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,2.2.0版本开始引入org.apache.hadoop.mapreduce的新API。

    HDFS:Hadoop分布式文件系统(Hadoop
Distributed FileSystem)。

    Pig:大数据分析平台,为用户提供多种接口。

    Hive:数据仓库工具,由Facebook贡献。

    Hbase:类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为顶级Apache项目)。

    ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

   Sqoop:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,
Oracle, Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

   Oozie:负责MapReduce作业调度。

时间: 2024-08-18 04:17:27

大数据核心技术的相关文章

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(3天)

Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. Yarn是目前公认的最佳的分布式集群资源管理框架: Mahout是目前数据挖掘领域的王者:        工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出: “2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入.在该计划支持下,加州大学伯克利分校开发了完整

Hadoop大数据时代:Hadoop&YarnSpark企业级最佳实践 (4天)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿里淘宝.腾

大数据架构-东方国信

mark: 新方向:原来我们讲的 Iaas/Paas/Saas 三层平台,未来运营商的大数据平台将向更深层次方向演进,如:Paas ( T-Paas.D-Paas) mark架构中的新技术:kudu.Ceph.OGG(Oralce GoldenGate).RHadoop.TiDB mark自主研发XCloud框架:分布式执行计划引擎.分布式调度引擎.查询引擎.集群状态管理服务 借签东方国信的hadoop发行版: HBase读写优化 + 二级索引.BEH-Manager 集 cluster 管理监

工信部<<大数据产业发展规划>>

大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17  来源:规划司 数据是国家基础性战略资源,是21世纪的"钻石矿".党中央.国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发<促进大数据发展行动纲要>,全面推进大数据发展,加快建设数据强国."十三五"时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,大数据技

阿里年薪50万的JAVA工程师转大数据学习路线

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机的. Java程序员想转大数据可行吗?Java是全世界使用人数最多的编程语言.不少程序员选择Java做为了自己的编程第一语言,但随之而来的是Java程序员接近饱和的人才市场.由此,随着大数据时代的到来,有很多Java程序员想要转行大数据. 不得不说,大数据行业可以说是为Java程序员量身打造的一个朝阳行业?为什么要这么说呢? 互联网是当下流行趋势,且未来可期.大数据的发展亦是时代发展的必然,如果大家还想要了

越来越多的Java程序员转行Java大数据...

JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA. 但是,在未来肯定是大数据的天下,人工智能的爆发,将会有大量企业会进入大数据领域,从而产生大量的大数据人才需求. 据最新发布的<大数据人才报告>显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万.领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺.数据分析人才跳槽速度也最快,平均跳槽速度为19.8个月

大数据初学者必备的详细版学习路线图

了解到,很多小伙伴都想要学习大数据技术,但真的不知道该如何学习,从哪个方向开始,又如何一步一步将大数据技术归为自己技能的呢? 要学习大数据的小伙伴可以按照这个路线走,是2019新更新的一版,大家可以放心学习,共分为以下五个阶段的学习: 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数

想要读懂大数据,你得先了解这些技术

说起大数据,很多人都能聊上一会,但要是问大数据核心技术有哪些,估计很多人就说不上一二来了. 从机器学习到数据可视化,大数据发展至今已经拥有了一套相当成熟的技术树,不同的技术层面有着不同的技术架构,而且每年还会涌现出新的技术名词.面对如此庞杂的技术架构,很多第一次接触大数据的小白几乎都是望而生畏的. 其实想要知道大数据有哪些核心技术很简单,无非三个过程:取数据.算数据.用数据.这么说可能还是有人觉得太空泛,简单来说从大数据的生命周期来看,无外乎四个方面:大数据采集.大数据预处理.大数据存储.大数据