Hadoop基准测试

其实就是从网络上copy的吧，在这里做一下记录

这个是看一下有哪些测试方式：

hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6-tests.jar

测试hadoop写的速度

向HDFS文件系统中写入数据,30个文件,每个文件100MB,文件存放到/benchmarks/TestDFSIO/io_data中

hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6-tests.jar TestDFSIO -write -nrFiles 30 -fileSize 100MB

然后查看结果：cat TestDFSIO_results.log

我的集群基准测试结果如下做了两次，有两个不同的结果，从结果上来看，为什么变化这么大：

----- TestDFSIO ----- : write
Date & time: Thu Sep 17 16:45:03 CST 2015
Number of files: 10
Total MBytes processed: 100.0
Throughput mb/sec: 27.51031636863824
Average IO rate mb/sec: 30.240123748779297
IO rate std deviation: 8.554948120135029
Test exec time sec: 30.227

----- TestDFSIO ----- : write
Date & time: Thu Sep 17 16:49:53 CST 2015
Number of files: 30
Total MBytes processed: 3000.0
Throughput mb/sec: 7.770168768065642
Average IO rate mb/sec: 8.027955055236816
IO rate std deviation: 1.629595948634101
Test exec time sec: 41.057

测试一下读的速度

hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6-tests.jar TestDFSIO -read -nrFiles 30 -fileSize 100MB

结果如下：

----- TestDFSIO ----- : read
Date & time: Thu Sep 17 16:55:26 CST 2015
Number of files: 30
Total MBytes processed: 3000.0
Throughput mb/sec: 55.33115697449234
Average IO rate mb/sec: 215.3984375
IO rate std deviation: 181.40860904339297
Test exec time sec: 27.108

清除一下测试数据：

hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6-tests.jar TestDFSIO -clean

时间： 2024-09-29 12:08:30

Hadoop基准测试的相关文章

Hadoop 基准测试与example

#pi值示例 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi 20 200 #生成数据第一个参数是行数第二个参数是位置 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar teragen 1000000 /tera

几个有关Hadoop自带的性能测试工具的应用

http://www.talkwithtrend.com/Question/177983-1247453 一些测试的描述如下内容最为详细,供你参考: 测试对于验证系统的正确性.分析系统的性能来说非常重要,但往往容易被我们所忽视.为了能对系统有更全面的了解.能找到系统的瓶颈所在.能对系统性能做更好的改进,打算先从测试入手,学习Hadoop几种主要的测试手段.本文将分成两部分:第一部分记录如何使用Hadoop自带的测试工具进行测试:第二部分记录Intel开放的Hadoop Benchmark Sui

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇. 为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Aweso

大数据资源

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇. 为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考.本资源类型主

HADOOP中HDFS基准测试

hdfs 基准测试: 磁盘读写性能测试 hadoop jar ./hadoop-mapreduce-client-jobclient-2.7.2.3.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB hadoop jar ./hadoop-mapreduce-client-jobclient-2.7.2.3.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB dev环境:read: 19/06/28 08:1

Hadoop之——分布式集群安装过程

转载请注明出处http://blog.csdn.net/l1028386804/article/details/46316051 集群的概念计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作. 集群系统中的单个计算机通常称为节点,通常通过局域网连接. 集群技术的特点: 1.通过多台计算机完成同一个工作.达到更高的效率 2.两机或多机内容.工作过程等完全一样.如果一台死机,另一台可以起作用集群模式安装步骤 (在伪分布模式下继续)

Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)

自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了.在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:"1/10计算资源,1/3耗时".这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验. 1.Hadoop 与 Spark 集群环境完全相同: - Hado

Hadoop集群选择合适的硬件配置

为Hadoop集群选择合适的硬件配置随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也

Hadoop笔记HDFS(1)

环境:Hadoop2.7.3 1.Benchmarking HDFS 1.1测试集群的写入运行基准测试是检测HDFS集群是否正确安装以及表现是否符合预期的好方法.DFSIO是Hadoop自带的一个基准测试程序,可以用来分析HDFS集群的I/O能力脚本: $HADOOP_HOME/bin/hadoop jar hadoop-mapreduce-client-jobclient-2.7.3-tests.jar TestDFSIO -write -nrFiles 10 -size 50MB nrF

猜你喜欢

添加Properties取值和枚举取值

<property name="ppp"> <props> <prop key="11"> ...

Android SDK无法显示更新列表解决方法

解决办法: 第一步: 打开Windows中C:\WINDOWS\system32\drivers\etc\hosts,然后添加以下内容: 203.208.46.146 dl.google.com 20 ...

正则表达式学习资料

正则教程 1)正则表达式30分钟入门教程: 2) 30分钟让你精通正则表达式语法 3)常用正则表达式 http://www.runoob.com/regexp/regexp-tutorial.html ...

使用Robot Framework框架远程操作UNIX系统

bot Framework是一个强大的自动化测试框架,依靠社区力量编写的Test Library为它提供了非常强的扩展性.下面我将介绍的就是如何使用第三方提供的扩展测试库(Test Library)来 ...

poj2400--Supervisor, Supervisee(KM算法)

po2400:题目链接题目大意:n个老板,n个职工,每个老板有对职工的一个排名,每个职工有对老板的一个排名,排名靠前,表示满意度高,表示想去那个老板那工作或是想要某个职工,现在每个老板选择一个职工, ...

测试一个对象是否是类字符串

有时候需要测试一个对象,尤其是在写一个函数或则方法到时候,需要测试传入的参数是否是一个字符串(或这个对象是否类似于字符串的行为): 下面的方式是利用内建的isinstance和basestring来简 ...

已有打开的与此 Command 相关联的 DataReader，必须首先将它关闭。

多次用到SqlDataReader 要先关闭,再执行ExecuteNonQuery操作每用一次需要先进行关闭,再执行新的一次,要不然就会报错“已有打开的与此 Command 相关联的 DataRea ...

老题新做，再战津津

又把一道很水的题来出来做了,就是2004年提高组津津的题,之前刚学循环的时候,一直没有看懂题面,不能搞懂循环点在哪,很迷很颓,就像一个心结一样压着,今天抽空又拿来看了一波,觉得很有搞头,于是在追求着一 ...

hibernate 3.3.2GA版的下载

网上马士兵老师采用的hibernate教程所使用的jar包便是hibernate 3.3.2GA,下载连接如下: http://download.csdn.net/detail/foreversile ...

execute sp_executesql 用变量获取返回值

1,EXEC的使用 2,sp_executesql的使用 MSSQL为我们提供了两种动态执行SQL语句的命令,分别是EXEC和sp_executesql;通常,sp_executesql则更具有优势, ...

sql - 批量删除表

今天帮朋友做点数据,其中因为原始数据的第一步处理需求变了,所以基本上过程中,除了原始数据,其他所有表都没有用了,但是sql Server又不允许同时选多个表进行删除操作. 我的需求是,除了表t_ini ...

H264关于RTP协议的实现

完整的C/S架构的基于RTP/RTCP的H．264视频传输方案.此方案中,在服务器端和客户端分别进行了功能模块设计. 服务器端:RTP封装模块主要是对H．264码流进行打包封装:RTCP分析模块负责产 ...

fpm 打包redis3.0.7

安装redis tar -xf redis-3.0.7.tar.gz -C /usr/local cd /usr/local && mv redis-3.0.7 redis cd re ...

MYCCL复合特征码定位器简介

复合特征码辅助定位工具 MyCCL by:Tanknight . 前言自从CCL问世以来,特征码修改已经成为了对付杀毒软件的常用手法,但是所谓魔高一尺,道高一丈杀毒软件开始使用多重复合特征码来对付特 ...

在JavaScript模块一文中介绍了如何组织代码实现模块化.模块化能隐藏私有的属性和方法,只暴露出公共接口.这样别人就不需要从头开始造轮子,直接用你的模块中定义的功能就行了.而且保证了命名空间,不会 ...

python之时间函数

import time print(time.clock())print(time.process_time())print(time.time()) #返回当前系统时间戳print(time.cti ...

数据同步方案（附Java源码)

一.问题背景经常碰到要同步数据的情况,而系统自带的复制功能又不能实现增量同步,每次都要做全量复制,发生异常情况后只能重头再来,非常麻烦,优其是对那种大文件的处理,更是耗时.二.解決方案1.计算源目录数 ...

程序员指点

宁可拼搏累死,也不能在家闲死!宁可出去碰壁,也不能在家里面壁.是狼就要练好牙,是羊就要练好腿.什么是奋斗?奋斗就是每一天很难,可一年一年却越来越容易.不奋斗就是每天都很容易,可一年一年越来越难.能干的 ...

J Query库

J Query库 J Query选择器:与CSS选择器完全一致 J Query语法: (1)美元符定义J Query (2)选择符查询和HTML元素 (3)J Query带action方法执行对元素带 ...

Java容器类的深入理解

Java容器类包含List.ArrayList.Vector及map.HashTable.HashMap ArrayList和HashMap是异步的,Vector和HashTable是同步的,所以Ve ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.