统计HDFS 上字节数据统计

class HDFSWordCount {
  def  main (args: Array[String]) {
    if (args.length > 0){
      for (line <- Source.fromFile(args(0)).getLines().toList)  //求最大长度
        println(line.length +" " +line)
    }
    else  Console.err.print("please enter fileName")
  }
  //对文件的每行记录打印格式的字符量化
  def widthOfLength(s: String) = s.length.toString.length
  if (args.length > 0){
    val lines = Source.fromFile(args(0)).getLines.toList
    val longetLine = lines.reduceLeft(
      (a, b) => if (a.length > b.length) a else b
    )
    val maxWidth = widthOfLength(longetLine)
    for (line <- lines){
      val numSpace = maxWidth widthOfLength(line)
      val padding = " " * numSpace
      println(padding +line.length + "|" +line)
    }
  }

}
时间: 2024-10-05 04:45:04

统计HDFS 上字节数据统计的相关文章

【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言 通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤. bulkload的详细情况请参见官网文档. 过程 第一步:每台机器执行 ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml 第二步:编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,拷贝到所有节点 末尾添加: export HADOOP_CLASSPA

_00017 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)

博文作者:妳那伊抹微笑 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在 技术方向:hadoop,数据分析与挖掘 转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! qq交流群:214293307  (期待与你一起学习,共同进步) # 学习前言 想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种

hbase 从hdfs上读取数据到hbase中

1 <dependencies> 2 <dependency> 3 <groupId>org.apache.hbase</groupId> 4 <artifactId>hbase-client</artifactId> 5 <version>2.0.2</version> 6 </dependency> 7 <dependency> 8 <groupId>org.apache

通过FSDataOutputStream向HDFS上写数据

FSDataOutputStream,这个类重载了很多write方法,用于写入很多类型的数据:比如字节数组,long,int,char等等. 像FSDataInputStream一样,要获得FSDataOutputStream的实例,必须通过FileSystem该类来和HDFS建立连接,然后通过路径返回FSDataOutputStream实例. FileSystem返回FSDataOutputStream实例的方法有两组 1.create(Path p)函数,创建一个空文件,然后可以向该文件顺序

HDFS上读写数据的流程解释

文件的读取 文件读取的过程如下: 1)解释一  客户端(client)用FileSystem的open()函数打开文件.  DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息.  对于每一个数据块,元数据节点返回保存数据块的数据节点的地址.  DistributedFileSystem返回FSDataInputStream给客户端,用来读取数据.  客户端调用stream的read()函数开始读取数据.  DFSInputStream连接保存此文件

统计分析基础 (一) 数据统计与图表

统计分析基础 (一)数据统计与图表 1 数据统计 1.1 统计学 统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科.它是研究如何测定.收集.整理.归纳和分析反映数据,以便给出正确消息的科学.统计广泛地应用在各门学科,从自然科学.社会科学到人文学科,甚至被用来工商业及政府的情报决策之上,目前比较热门的应用:经济学,医学,心理学等.随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息.计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一.

友盟-统计不到线上应用数据的坑

原文链接: 友盟-统计不到线上应用数据的坑 简书主页:http://www.jianshu.com/users/37f2920f6848 Github主页:https://github.com/MajorLMJ iOS开发者公会-技术1群 QQ群号:87440292 iOS开发者公会-技术2群 QQ群号:232702419 iOS开发者公会-议事区   QQ群号:413102158

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

大数据技术之_18_大数据离线平台_02_Nginx+Mysql+数据收集+Web 工程 JS/JAVA SDK 讲解+Flume 故障后-如何手动上传 Nginx 日志文件至 HDFS 上

十一.Nginx11.1.介绍11.2.常见其他 Web 服务器11.3.版本11.4.Nginx 安装11.5.目录结构11.6.操作命令十二.Mysql12.1.介绍12.2.关系型数据库(SQL)种类12.3.特征12.4.术语12.4.与非关系型数据库比较(Not Only SQL)12.4.1.种类12.4.2.特征12.4.3.总结十三.数据收集13.1.收集方式13.2.数据的事件类型13.2.1.Launch 事件13.2.2.PageView 事件13.3.Nginx 日志收集