了解Hadoop和大数据

1. 场景:

现在人产生数据越来越快,机器则更快,所以需要另外的一种处理数据的方法。
   硬盘容量增加,但是性能没跟上,解决办法是将数据分到多块硬盘,然后同时读取。

问题:
     硬件问题 -- 复制数据  解决(RAID)
     分析需要从不同的硬盘读取的数据:  MapReduce

Hadoop: 
      1) 可靠的共享存储(分布式存储)
      2) 抽象的分析接口(分布式分析)

2. 大数据
    -- 可以理解为不能使用一台机器处理的数据

大数据的核心是样本 = 总体

特性:  大量性   快速性   多样性  易变性  准确性   复杂性

关键技术: 
    1) 数据分布在多台机器
         -- 可靠性: 每个数据块都复制到多个节点
             性能: 多个节点同时处理数据
    2) 计算随数据走
       网络IO速度<<本地磁盘速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行
       (程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
       代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上
    3) 串行IO取代随机IO
       传输时间<<寻道时间,一般数据写入后不再修改

** 大数据主要解决的是数据比较多,所以存放到多台机器上,那么需要关注数据存储的问题,以及数据的安全保障,还有数据的计算问题,计算的性能;

3. Hadoop

Hadoop高容错、高可靠性、高扩展性,特别适合写一次,读多次的场景。

适合:
        大规模数据
        流式数据(写一次,读多次)
        商用硬件(一般硬件)

不适合:
       低延迟的数据访问
       大量的小文件
       频繁修改文件(基本就是写1次)

** 4. Hadoop架构

HDFS: 分布式文件存储
       YARN:分布式资源管理
       MapReduce:分布式计算
       Others:利用YARN的资源管理功能实现其他的数据处理方式

内部各个节点基本都是采用Master-Woker架构

        

时间: 2024-08-07 08:52:28

了解Hadoop和大数据的相关文章

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

不只是Hadoop:大数据技术的未来道路

在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林? 作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子.然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉. 那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步.伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm.Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远.转而踏上了一条真正通往实 时性未来的发展道路. 批量并非

Hadoop Spark大数据全套课程+共享单车开发项目实战

hadoop spark大数据实时计算全套课程+共享单车开发项目实战 [下载地址:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q ] 有着三四年工作经验的你,面对如此诱惑的薪资和热度爆棚的岗位是否想尝试一下突破紧急,走上职业生涯巅峰? 本期推出java,hadoop,spark大数据从基础到项目实战的全过程培训教材课程目录: 原文地址:http://blog.51cto.com/aino007/2148831

Java之使用Hadoop探索大数据的世界

什么是大数据 PB = 1024tb 7123913827189tb Reids 无共享 HDFS 优点 :特别适合存储大型文件 TFS hdfs 架构 NameNode: 整个hadoop总管,只有一个,DataNode down了 存储为镜像文件fsimage 和edites secondary 定期合并日志文件及镜像文件 DataNode 负责存储数据 以固定大小的block为基本单位组织文件内容 默认大小是64M MapReduce JobTracker 主要负责资源监控及作业调度. T

Hadoop和大数据:60款顶级大数据开源工具

一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统:Windows.Linux和OS X. 相关链接: http://hadoop.apache.org 2. Ambari 作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置.管理和监控Hadoop集群.有些开发人员想把Ambari的功能整合到自己的应用程序当

Spark应用开发之一:Hadoop分析大数据

要学会和使用一门技术的时候,首先要弄清楚该技术出现的背景和要解决的问题.要说spark首先要了解海量数据的处理和Hadoop技术. 一个系统在运行的过程中都会产生许多的日志数据,这些日志数据包含但不局限我们平常开发中使用log4j或者logback生成的记录系统运行情况的日志.例如对于网络服务提供商,他们的设备可能会记录着用户上下线时间,访问的网页地址,响应时长等数据,这些数据文件里面记录的某些信息经过抽取分析后可以得出许多的指标信息,从而为改善网络结构和提高服务等提供数据依据.但这些数据会很大

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

【大数据干货】基于Hadoop的大数据平台实施——整体架构设计

大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>--云里雾里的感觉.或许那些正

hadoop之大数据

一.大数据的特点(四条) 大量.高速.多样.低价值密度 二.大数据应用场景 物流仓库.零售.旅游.商品广告推荐.保险.金融.房产.人工智能 三.大数据部门组织结构 原文地址:https://www.cnblogs.com/xiximayou/p/12242453.html