基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计

map/reduce是大数据处理的技术，它的思路是把大规模数据分成一个个小数据块，每个数据块由一个map任务来处理，处理的中间结果汇总到reduce,最后生成最终的处理结果，这个处理和汇总的过程是可以反复多次的，也就是map-reduce-map-reduce

基于map/reduce的思路，我们可以设计基于hadoop(map/reduce)的大规模分布式并行计算生产排程系统，怎么样把大数据处理变成大规模分布式并行计算呢，就是我们不切分数据，每个map任务的数据都是相同的，每个map任务对排程数据计算指定次数（比如1千次），然后将得到的最优结果汇总到reduce,reduce从这些中间的最优结果中选出最优结果，做为新的数据传递给map任务，开始下一轮的计算和汇总

由于hadoop是充分成熟的技术，能在数以千计的服务器或数千个cpu的数据处理系统上高效稳定的运行，完全支持云计算平台，基于hadoop下(map/reduce)技术设计大规模分布式并行计算生产排程系统或者其他类似的并行优化计算系统，将成为最佳的选择

时间： 2024-10-29 10:45:56

基于hadoop (map/reduce)的大规模分布式并行计算生产排程系统的设计的相关文章

一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）

Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解Mapper和Reducer接口,应用通常须要提供map和reduce方法以实现他们. 接着我们须要对JobConf, JobClient,Partitioner,OutputCollector,Reporter,InputFormat,OutputFormat,OutputCommitter等进行讨

Hadoop Map/Reduce

Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集.一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们.框架会对map的输出先进行排序, 然后把结果输入给reduce任务.通常作业的输入和输出都会被存储在文件系统中. 整个框架负责任务的调度和监控,以及重新执行已经失败的任务.通常,Map/R

tf-idf hadoop map reduce

package com.jumei.robot.mapreduce.tfidf; import java.io.IOException; import java.util.Collection; import java.util.Comparator; import java.util.Map.Entry; import java.util.Set; import java.util.StringTokenizer; import java.util.TreeMap; import org.ap

Hadoop map reduce 任务数量优化

mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量默认值:2 优化值:mapred.tasktracker.map.tasks.maximum = cpu数量 cpu数量 = 服务器CPU总核数 / 每个CPU的核数服务器CPU

Hadoop学习：Map/Reduce初探与小Demo实现

一. 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架攻克了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,能够使没有并行处理或者分布式计算经验的project师,也能非常轻松地写出结构简单的.应用于成百上千台机器处理大规模数据的并行分布式程序. Hadoop MapReduce基于"分而治之"的思想,将计算任务抽象成map和reduce两个计算过程,能够简单理解为"分散运算-归并结果"的过程.一个 M

分布式基础学习（2）分布式计算系统（Map/Reduce）

二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的.我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数.从计算的角度上看,Map/Reduce框架接受各种格式的键值对文件作为输入,读取计算后,最终生成自定义格式的输出文件. 而从分布式的角度

Map Reduce和流处理

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由@从流域到海域翻译,发表于腾讯云+社区 map()和reduce()是在集群式设备上用来做大规模数据处理的方法,用户定义一个特定的映射,函数将使用该映射对一系列键值对进行处理,直接产生出一系列键值对. Map Reduce和流处理 Hadoop的Map / Reduce模型在并行处理大量数据方面非常出色.它提供了一个通用的分区机制(基于数据的关键)来分配不同机器上的聚合式工作负载.基本上, map / reduce的算法设计都是关

基于Hadoop生态圈的数据仓库实践 —— ETL（三）

三.使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么 Oozie是一个管理Hadoop作业.可伸缩.可扩展.可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业.Oozie支持的作业类型有Java map-reduce.Streaming map-reduce.Pig. Hive.Sqoop和Distcp,及其Java程序和shell脚本等特定的系统作业. 第一版

大规模分布式数据处理平台Hadoop的介绍一种可靠、高效、可伸缩的处理方案

http://www.nowamagic.net/librarys/veda/detail/1767 Hadoop是什么 Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目.简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类

猜你喜欢

算法竞赛入门经典刘汝佳

点击图片或此处下载

JavaScript性能优化

1.使用局部变量在函数中,总是使用var来定义变量.无论何时使用var都会在当前的范围类创建一个局部变量.如果不使用var来定义变量,那么变量会被创建在window范围内,那么每次使用这个变量的时候 ...

javaweb学习总结(四)——Http协议

一.什么是HTTP协议 HTTP是hypertext transfer protocol(超文本传输协议)的简写,它是TCP/IP协议的一个应用层协议,用于定义WEB浏览器与WEB服务器之间交换数据的 ...

Bootstrap标签Tabs

<ul class="nav nav-tabs" role="tablist"> <li class=&quo ...

java用org.apache.poi包操作excel

1.Jakarta POI 是apache的子项目,目标是处理ol2对象.它提供了一组Windows文档操作的Java API. 2.EXCEL 结构HSSFWorkbook excell 文档对象介 ...

Visual Studio 2015 + OpenCV 2.4.9 开发环境搭建

第一步安装 Visual Studio 2015 (废话),别忘了勾选C++部分组件第二步下载 OpenCV https://sourceforge.net/projects/opencvlib ...

ASP.NET 身份验证机制

ASP.NET提供了3种认证方式:windows身份验证:IIS根据应用程序的设置执行身份验证.要使用这种验证方式,在IIS中必须禁用匿名访问.Forms验证 :用Cookie来保存 ...

[软件测试学习]考虑到测试的代码编写／int.parse的非法输入—由一个简单的c＃闰年检测程序说起

一个简单的C#的闰年检测程序 1.闰年检测的函数编写当提起检测平年闰年时候,第一反应写出的代码 1 public static bool isLeapYear(int year){ 2 return ...

树状数组单点更新和区间查询

这里是最基本的操作. 单操作时间复杂度O(logN),空间复杂度O(N). 1 #include <fstream> 2 #include <iostream> 3 #incl ...

2017.0703.《计算机组成原理》-动态RAM

动态RAM 1.动静态的区别是存储原理的不同,但是它们的命名是由过程中的动作的差别,如动态的过程中有刷新的动作. 2.动态RAM比静态的RAM的集成度要高,功耗要小(集成度代表着完成一个相同的功能所需 ...

hdu 5927 Auxiliary Set 贪心

Auxiliary Set Time Limit: 9000/4500 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Pr ...

css3 实现背景图片显示

<!DOCTYPE html><html> <head> <style> p{ display: inline-block; background-co ...

USACO snail

这个题和传统的走迷宫题非常像, 不同点事这个题选定一个方向后会一直走知道遇到障碍物走到边缘或者走到已经走过的点, 我们可以使用dfs来解决这个问题,dfs(x, y, dir, steps)表示从 ...

virmon防火墙有了升级

virmon防火墙版本有了升级,功能增加了封包监控的包大小字段. 可以在包监控时,知道协议包大小和速度.下载请见置顶2015-07-25 版权声明:本文为博主原创文章,未经博主允许不得转载.

练习2014081406

/******************************************************************** * @file Main_practise.cpp * @d ...

07_apply rolling updates to a service

在上一个小节,我们在一个服务中,扩容了多个实例. 在这个小节,我们来部署一个服务,基于redis3.0.6容器镜像. 然后通过滚动升级,升级到redis3.0.7 docker machine ssh ...

让IE9以下版本的浏览支持html5,CSS3的插件

随着html5(后面用h5代表)标签越来越广泛的使用,IE不识别h5标签的问题让人很是烦恼. 在火狐和chrome之类的浏览器中,遇到不认识的标签,只要给个display:block属性,就能让这个元 ...

忘记root 登录密码怎么办？_single模式开启即可

假如你忘记了root的登录密码,该如何是好?利用Linux系统的单用户模式(类似Windows的安全模式)来重新设定新密码即可,声明:此操作是要在物理主机上进行的,如果你是远程登录的话,那就没办法了, ...

【Java】MyEclipse中复制项目或修改项目名字出现问题

今天用MyEclipse复制一个已经存在的项目,并将名字修改成另外一个项目时,出现了一个问题困扰我多时,后来终于解决了. 1.问题描述复制并修改名字后,部署到Tomcat上跑,结果发现运行时都是复制 ...

韩顺平循序渐进学java 第13讲抽象类.接口

13.1抽象类 13.1.1 概念当父类的一些方法不能确定时,可以用abstract关键字来修饰该方法,称为抽象方法,用abstract来修饰该类,称为抽象类. 13.1.2 抽象类-深入讨论抽象 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.