hadoop学习系列(1.大数据典型特性与分布式开发难点)

第一天

1.大数据典型特性与分布式开发难点

1. 大数据典型特性与分布式开发难点
2. Hadoop框架介绍与搜索技术体系介绍
3. Hadoop版本与特性介绍
4. Hadoop核心模块之HDFS分布式文件系统架构介绍
5. Hadoop核心模块之Yarn操作系统架构介绍
6. Linux安全禁用设置与JDK安装讲解
7. Hadoop伪分布式环境部署HDFS部分
8. Hadoop伪分布式环境部署Yarn和MR部分
9. Hadoop环境使用常见的错误集合
10. Hadoop环境常规设置与辅助功能讲解(-)
11. Hadoop环境常规设置与辅助功能讲解(二)
12. Windows环境下部署Eclipse插件注意事项

1.大数据典型特性与分布式开发难点

1.大数据典型特性

没有大数据据技术之前,我就以抽样统计为例(统计一个城市的男女人口比例),我们的做法是不是找个人多的地方,随机抽取一部分人,统计出男女比例,作为城市的男女人口比例,这样的误差非常大,数据量越大,统计出来的结果越准确。这样我们就要先解决这么大数据量的存储问题,(这个例子不能体现出数据类型繁多),接下来是不是要解决数据计算的问题,总不能人工一个一个数吧,大数据技术就能为我们解决这些问题。

传统RDBMS 的瓶颈,关系型数据的特点是各个数据项之间有一定的关系,这个在设计数据库的设计阶段必须设计好,但是当今需求中,我们往往分析的数据之间没有关系,例如我们在设计一个推荐系统的时候,要分析客户的行为,客户的行为数据之间就没有相应的关系,结构化数据和非结构化数据共存使数据多样化。

海量的数据,这么大的数据量,我们还要处理的非常快。这对技术是很大的挑战。这就是大数据的特性

多:这里的多就是海量数据,我们要解决海量数据的存储问题

繁:结构化,非结构化,半结构化数据的共存

快:这么大的数据量,这么繁多的不同类型的数据,还要处理的快,不然就会成为系统的瓶颈。

我们的最终目的是挖掘出有用的,有价值的数据。

2.大数据的能做什么?

3.一个数据平台的工作(完整的平台)

3.1离线

-》批量计算

3.2 实时

-》流式计算

-》在线分析

3.3数据共享

4.数据平台指标

-》设备台数:5000台

-》总存储数量:100PB+

-》日新增数量:200TB+,月数据增长比率10%

-》有多个数据产品

-》存储表10w+

-》日均运行JOB数

-》日均计算量5PB+

5.分布式开发的难点

-》平台搭建

-》分布式

-》同步,一致性(配置(会搭建很多框架),时间(微妙误差))

-》自动化部署管理平台

-》cloudera 发布的hadoop版本 CDH

-》cloudera  manager,简称:CM

-》框架是开源的  不可靠

所以很多公司都是以开源框架为基础,开发自己的框架,例如:淘宝的 TFS文件系统

任务调度框架oozie,淘宝自己的框架 宙斯 。

-》成本的问题

由于集群用到的机器比较廉价,所以会出现节点故障,我们必须有相应的容错机制,保证集群的健壮性。

6.学习大数据的基础:

自己学习的随笔,在组织存在问题,不喜勿说

原文地址:http://blog.51cto.com/10484979/2064073

时间: 2024-10-14 10:00:22

hadoop学习系列(1.大数据典型特性与分布式开发难点)的相关文章

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

第一天 2.Hadoop框架介绍与搜索技术体系介绍 1. 大数据典型特性与分布式开发难点 2. Hadoop框架介绍与搜索技术体系介绍 3. Hadoop版本与特性介绍 4. Hadoop核心模块之HDFS分布式文件系统架构介绍 5. Hadoop核心模块之Yarn操作系统架构介绍 6. Linux安全禁用设置与JDK安装讲解 7. Hadoop伪分布式环境部署HDFS部分 8. Hadoop伪分布式环境部署Yarn和MR部分 9. Hadoop环境使用常见的错误集合 10. Hadoop环境常

Hadoop环境中管理大数据存储八大技巧

随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能

数道云大数据平台解决方案,Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

波若大数据平台(BR-odp)Hadoop + HDFS+Hive+Hbase大数据开发工具剖析: HDFS:分布式.高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,大规模的波若大数据平台(BR-odp)用户部署上1000台的HDFS集群.数据规模高达50PB以上 HDFS和MR共同组成Hadoop分布式系统体系结构的核心.HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理.HDFS在MR任务处理过程中提供了文件操作和存储等支持,MR在HDF

为什么要学习React,学习React在大数据开发上有什么好处

为什么要学习React,学习React在大数据开发上有什么好处 分享之前我还是要推荐下我自己创建的大数据学习资料分享群716581014,这是全国最大的大数据学习交流的地方,2000人聚集,不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2018年学习和零基础入门教程,欢迎初学和进阶中的小伙伴. 如何学习React 如果你是一个 React (或者前端) 新手, 出于以下的原因, 你可能会对这个生态圈感到困惑: React 的目标群

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大

能源管控系统开发,BI大数据可视化管理分析平台开发

能源管理系统是以帮助工业生产企业在扩大生产的同时,合理计划和利用能源,降低单位产品能源消耗,提高经济效益为目的信息化管理系统.通过能源计划,能源监控,能源统计,能源消费分析,重点能耗设备管理,能源计量设备管理等多种手段,是企业管理者对企业的能源成本比重发展趋势有准确的掌握,并将企业的能源消费计划任务分解到各个单位,是节能工作责任明确,促进企业健康稳定发展.针对我国工业生产线中的在线计量.功效检测技术和节能控制技术严重缺乏等问题.研究开发工业生产线关键点在线电能计量.加工功效有效性分析技术,工业生

从 scala学习到精通大数据平台

大数据何止是大,未来的世界应该是数据大爆炸,掌握数据的人才能掌握未来! 模拟用户轨迹,行为分析,市场预测,spark基于内存的大数据框架.图计算,机器学习,docker,hadoop,spark,flink,,,让我们一起来追寻spark,进入大数据时代!!! spark 大数据是用scala语言,scala是完全面向对象和函数式编程,简介而又不简单.是一个弹性编程语言,scala的actor编程特别擅长于并发编程.和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用

中文挖掘智能学习已经成为大数据语义分析的趋势

自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变. 智能学习也有人称之为"软计算",是们受自然(生物界)规律的启迪,根据其原理,模仿求解问题的算法.从自然界得到启迪,模仿其结构进行发明创造,这就是仿生学.这是我们向自然界学习的一个方面.另一方面,我们还可以利用仿生原理进行设计(包括设计算法),这就是智能学习(计算)的思想.这方面的内容很多,如人工神经网络技术.遗传算法和群集智能技术等. 1.人工神经网络算法 "人工神经网络"(ART

Hadoop基础之初识大数据与Hadoop

前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一.引言(大数据时代) 1.1.从数据中得到信息 我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特.但是如果只有数据没有图片的话,就没有意义的数据了.所以数据一定是在特定的环境下才有意义的. 我们再来看一张图片: 从这张图片分析出: 从纵向分析,