大数据随笔(二)

  • Hive
  • Hive是一个构建在Hadoop上的数据仓库框架,设计目的是让精通SQL的分析师能够对存放在HDFS上的大规模数据集执行查询操作。

    Hive把数据组织为表,通过这种方式为存储在HDFS的数据赋予结构,并将表模式等元数据存储在名为Merastore的数据库中。基于这种类似关系的数据模型,Hive把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业。

    Hive体系结构如下图所示:

    2.YARN

    从0.23版本开始,新的Hadoop MapReduce框架被命名为YARN,即资源管理和调度框架。

    3.Spark

    MapReduce框架主要存在两个不足:

    (1)运行效率较低

    (2)对复杂算法支持不好

    Spaek立足于内存计算,从多迭代批量处理出发,包括数据仓库、流处理和图计算等多种计算范式。Spark可以在Hadoop集群中运行,通过使用内存而非硬盘,避免了MapReduce的批处理问题。相对于MapReduce,Spark的明显优势有以下几点:

    (1)提供了一套支持有向五环图DAG(directed acyclic graph)的分布式并行计算的编程框架,减少多次计算之间中间结果写到HDFS的开销。

    (2)提供基于内存的Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的I/O开销。

    (3)使用多线程池模型来减少task启动开销,Shuffle过程中避免了不必要的sort操作,以及减少磁盘I/O操作。

    (4)与MapReduce相比,具有更广泛的数据集操作类型,大大提高编程的灵活性。

    (5)基于比Java更简洁的Scala语言,提高了代码的简洁性。

    原文地址:http://blog.51cto.com/likerock/2152992

    时间: 2024-11-05 20:39:42

    大数据随笔(二)的相关文章

    蔡先生论道大数据之二 , 国外互联网公司的大数据应用

    第一章我阐述了大数据的前世今生,今天我们来看看国外大公司如何利用和布局大数据的. IBM IBM是商业分析和大数据技术的最活跃厂商之一.早在大数据概念进入媒体视野之前,IBM就提出"智慧地球"的说法,其核心是把"智慧"嵌入系统和流程之中,使服务的交付.产品开发.制造.采购和销售得以实现,使亿万人生活和工作的方式变得更加智慧.现在,大数据技术为IBM提供了一种实现途径.近年来,IBM先后投资了SPSS.Clarity.penPages.i2.Algorithmics等

    大数据【二】HDFS部署及文件读写(包含eclipse hadoop配置)

    一 原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂. 2' HDFS 借此,关于GFS和HDFS的区别与联系查看 我于博客园找到的前辈的博客>>http://www.cnblogs.com/liango/p/7136448.html HDFS(Hadoop Dis

    大数据随笔(一)

    一.概述 谈到大数据,离不开云计算.物联网.数据中心这些关键基础技术. 云计算是分布式处理.并行处理和网格计算的,或者说是这些计算机科学概念的商业实现.狭义上云计算指IT基础设施的交付和使用模式,即通过网络以按需.易扩展的方式获得所需资源:广义上云计算指服务的交付和使用模式,即通过网络以按需.易扩展的方式获得所需服务.云计算强调云存储和计算能力,是一个动态的过程.大数据是计算的对象,强调的是服务器的存储能力和计算能力. 物联网的基本思想是,将现实世界中的不同物体,比如RFID.条码.传感器.移动

    大数据运算系统二

    目录 一.同步图计算 1.图算法 2.同步图计算 3.系统实现 二.异步图计算 1.数据模型 2.计算过程 (本文为陈世敏老师课程笔记) ------------------------------------------- 一.同步图计算 1.图算法 PageRank:随机游走模拟网页浏览得到网页重要度排名,从1/N初始化,直到公式收敛 (1-d)/n是任意跳转的概率,后面的邻居通过超链接跳到他的概率.为了防止N很大时候精度不够,公式两边乘以N,R'=NR,R'初始化为   1 2.同步图计算

    大数据之二:Hadoop与Spark辨析

    转载自知乎:https://www.zhihu.com/question/26568496 1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行 处理,非常适合数据密集型计算. 2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘 计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代 应用和交互式应用的计算效率. 3) Storm:MapReduce也不适合进行流式计算.实时分析,

    大数据存储系统二

    目录 一.Key-value store 1.Dynamo 1.1 consistence hash 1.2 Quorum机制保证无主节点正确性 1.3 Eventual Consistency 2.Bigtable/Hbase 3.Cassandra 二.Distributed Coordination:Zookeeper 1.概念 2.数据模型 3.基本原理 4.应用案例 (本文为陈世敏老师课程笔记) ---------------------------------------------

    怎么把大数据的二维数组转化为一维数组????

    今天做了一场比赛发现一个题卡死在数据上,原本要开一个二维数组a[2e5][2e5]但是这样肯定要re.我一直卡死在这个地方,比赛中想到了一个方法. 那就是用string数组去计数,那样就可以开一个st[2e5]的数组就可以了...然而这样伴随着一些问题.我发现直接用st[i][j]=t;这样是不对的,输出发现没有输出数据!!! 后来我发现必须先把string数组的每一个元素先赋值一个东西,因为我表示的是一个矩阵,所以我把string数组的每一个元素,也是一个string,这里定义为ss了,那么如

    大数据(十二) - Oozie

    基本概念 眼下计算框架和作业类型繁多: MapReduce Java.Streaming.HQL.Pig等 怎样对这些框架和作业进行统一管理和调度: 不同作业之间存在依赖关系(DAG): 周期性作业 定时运行的作业 作业运行状态监控与报警 多种解决方式: Crontab 自己设计调度系统 直接使用开源系统 Hadoop作业流调度系统基本功能 对常见作业类型进行调度 MapReduce(Java.Streaming等)作业 Hive作业 Pig作业 Shell -. 依据须要对作业进行调度 按周期

    Azure HDInsight 和 Spark 大数据实战(二)

    HDInsight cluster on Linux 登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DATA SERVICES 按钮,点击 HDINSIGHT,选择 HADOOP ON LINUX,如下图所示. 输入集群名称,选择集群大小和账号,设定集群的密码和存储账号,下表是各个参数的含义和配置说明. Name Value Cluster Name Name of the cluster. Clust