hadoop备记

Hadoop 的优势

Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:

1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。

2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地扩展到数以千计的节点中。

3.高效性。Hadoop 能够在节点之间动态地移动数据, 以保证各个节点的动态平衡, 因此其处理速度非常快。

4.高容错性。Hadoop 能够自动保存数据的多份副本, 并且能够自动将失败的任务重新分配。

现在的话Hadoop已经包含很多项目。不过核心内容是MapReduce和Hadoop分布式文件系统。这里spark的话实时性性能方面比hadoop高很多。这里我不多说什么。（http://www.zdnet.com/faster-more-capable-what-apache-spark-brings-to-hadoop-7000026149/可以看看spark与hadoop比较）

与Hadoop相关的Common,Avro,Chukwa,Hive,HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。

hadoop备记,布布扣,bubuko.com

时间： 2024-11-29 07:21:56

hadoop备记的相关文章

hadoop开发使用备记

使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用-.慢慢地涉及到数据处理的事情,已经离不开hadoop了.Hadoop在大数据领域的成功,更引发了它本身的加速发展.现在Hadoop家族产品,已经达到20个了之多. 有必要对自己的知识做一个整理了,把产品和技术都串起来.不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备. 一句话产品介绍: Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和

bower解决js的依赖管理备记

一个新的web项目开始,我们总是很自然地去下载需要用到的js类库文件,比如jQuery,去官网下载名为jquery-1.10.2.min.js文件,放到我们的项目里.当项目又需要bootstrap的时候,我们会重复刚才的工作,去bootstrap官网下载对应的类库.如果bootstrap所依赖的jQuery并不是1.10.2,而是2.0.3时,我们会再重新下载一个对应版本的jQuery替换原来的. 包管理是个复杂的问题,我们要知道谁依赖谁,还要明确哪个版本依赖哪个版本.这些对于开发人员来说,负担

hadoop随记（一）

现在是一个大数据的年代,每天全球已电子方式存储数据的数据总量非常大.下面是部分例子: 1,facebook存储这约100亿张照片,越1PB存储容量 2,The Internet Archive(互联网档案馆)存储这约2PB数据,并以每月至少20TB的速度增长 3,瑞士日内瓦附近的大型强子对撞机每年产生15PB数据我们有了大量的数据,可以从中分析出我们有用的信息,如单个用户浏览网页内容的偏好,发现潜在用户等,还有很多用于科学技术上的用处. 那么数据怎么存放呢?这么大的数据量,首要解决的是数据读写

几个有用的脚本备记

tesseract sh训练脚本 #! /bin/bash # build the environment mkdir tessenv; cd tessenv TROOT=`pwd` mkdir $TROOT/stockfonts; mkdir $TROOT/build; mkdir $TROOT/build/eng echo "Environment built" # Get the stock english fonts from Google (old, but they wor

redhat-5.6-x86_64 编译 binutils-2.24、gcc-4.9.2 备记

工具链准备:rhel56安装时包含所有开发需要的包. 编译binutils-2.24(便以前先打补丁0ef76c4和27b829e): ./configure --disable-nls --disable-shared --build=x86_64-redhat-linux --host=x86_64-redhat-linux --target=x86_64-redhat-linux --disable-multilib --prefix=/opt/gcc-4.9.2 make all ins

redhat-5.6-x86_64、gcc-4.9.2 编译 Qt-4.8.6 备记

下载地址 mkspecs选择linux-g++-64 编译前正确配置LD_LIBRARY_PATH为64位对应的lib目录,如/usr/lib64等,需要将gcc-4.9.2的lib64目录放到/usr/lib64的前面--链接gcc-4.9.2的libstdc++.so,否则编译好的Qt运行时会链接/usr/lib64下的libstdc++.so,部分工具(assistant.linguist等会运行出错):LD_LIBRARY_PATH中不包含32位的库目录. configure事如果X

二十五、Hadoop学记笔记————Hive复习与深入

Hive主要为了简化MapReduce流程,使非编程人员也能进行数据的梳理,即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据(表明,字段信息等)存于关系型数据库中,数据存于HDFS中. 此元数据与HDFS中的元数据需要区分清楚,HDFS中元数据(文件名,文件长度等)存于Namenode中,数据存于Datanode中. 本次使用的是hive1.2.2版本下载完毕之后解压: 将default文件复制一份成site文件,然后打开site文件,清空其内容,然后配置如下参数: h

/CC1310备记

之前做了一镇子超低功耗,遇到的问题cc1310的不同封装程序无法通用, 困惑了很久也没有解决,找到问题没有解决的那种,环境使用的是官方ccs和engina. 1.可能寄存器重新配置过却没有使能初始化,换环境<IAR,/有望解决 2.6lowpan理解片面,基于结构性理解而非功能性理解 http://processors.wiki.ti.com/index.php/Contiki-6LOWPAN 原文地址:https://www.cnblogs.com/beyondsdo/p/12333860.h

Hibernate不同DB的日期查询

Java web项目开发,ORM层用的是Hibernate,用HQL语句查询不同数据库时,日期时间比较还是有所区别的. 1.在Mysql数据库时,是这样写的: 上面是个代码拼串截图,翻译一下是这样的: from MyObj where t.addTime >='2016-06-01' and t.addTime <= '2016-06-10 23:59:59' 2.在Oracle数据库中,是这样写的: 翻译一下: from MyObj where t.addTime >= to_date