Linux下统计出现次数最多的指定字段值

假设桌面上有一个叫“data.txt”的文本，内容如下：

{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘111111‘ dd=‘xxx‘}
{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘777‘ dd=‘xxx‘}
{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘yyyy‘ dd=‘xxx‘}
{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘5555‘ dd=‘xxx‘}
{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘777‘ dd=‘xxx‘}
{id=‘xxx‘ info=‘xxx‘ kk=‘xxx‘ target=‘555566‘ dd=‘xxx‘}

要求：找出“data.txt”文件中target字段出现次数最多的值。

Linux下统计字符串

在linux终端通过常用工具进行解决，方法如下：

其中组合用到了一些命令行和工具，有cat、awk、cut、sed、sort、uniq、tail——

cat

cat data.txt，获取并显示“data.txt”文件的每一行内容：

awk

cat data.txt | awk ‘{print $4}‘，显示传入的每一行中第四个字段：

cut

cat data.txt | awk ‘{print $4}‘ | cut -c 8-，从传入字符串的第八位开始，截取字符串到最后：

sed

cat data.txt | awk ‘{print $4}‘ | cut -c 8- | sed "s/‘//g"，去掉传入字符串中包含的 ‘ 字符：

sort

cat data.txt | awk ‘{print $4}‘ | cut -c 8- | sed "s/‘//g" | sort，对结果进行排序：

uniq

cat data.txt | awk ‘{print $4}‘ | cut -c 8- | sed "s/‘//g" | sort | uniq -c | sort，去重并统计每种字符串出现的次数：

tail

cat data.txt | awk ‘{print $4}‘ | cut -c 8- | sed "s/‘//g" | sort | uniq -c | sort | tail -n 1，显示结果中的最后一行：

我们至此已知出现次数最多的target字段值为777，出现次数为2。若有多个相同次数的字段值出现，可以通过修改tail -n后面接的数值来查看，改为10即显示结尾10行。

时间： 2024-10-22 19:23:34

Linux下统计出现次数最多的指定字段值的相关文章

[转载] linux下tar命令解压到指定的目录

参考 http://blog.sina.com.cn/s/blog_62449fcf0100nfar.html linux下tar命令解压到指定的目录 : #tar zxvf /bbs.tar.zip -C /zzz/bbs //把根目录下的bbs.tar.zip解压到/zzz/bbs下,前提要保证存在/zzz/bbs这个目录这个和cp命令有点不同,cp命令如果这个目录不存在,就会自动创建这个目录! 附:用tar命令打包例:将当前目录下的zzz文件打包到当前目录下并命名为zzz.tar.

linux下统计目录下所有子目录的大小

du -sh * --exclude=tar |awk '{v=substr($1,length($1),1)}v=="G"{$0="1G "$0}v=="M"{$0="2M "$0}v=="K"{$0="3K "$0}v=="0"{$0="4Z "$0}!system("[ -d "$NF" ]")' |s

linux下统计代码执行时间

转载自:http://velep.com/archives/973.html 统计函数或某一段代码的运行时间在软件开发中常常遇到.透过运行时间可分析出函数或程序段的运行效率和性能,从而有针对性的对代码进行优化. 在unix环境中,常常用binutils(GNU二进制工具集)中的gprof工具来查看函数运行时间.但本文的重点是自己编写代码实现函数或程序段运行时间的统计.下面进行详细描述. 实现原理实现原理很简单,在函数或程序段开始运行前,记录开始时间.运行完成后,记录结束时间.把结束时间与开始时

超大文件（1TB）统计访问次数最多的来源IP及访问次数

题目解读 1. 文件格式:访问时间,来源IP,响应结果,响应耗时 2. 文件大小:超大规模,TB数量级解题思路首先,数据量过大,通过内存计算肯定是不可行的. 考虑采用分治,将大文件切割成小文件,再对小文件分析,找出访问次数最多的,此时将问题转化为:切割小文件算法具体思路如下: 将1T的文件按照IP的高8位(代码是按照高8位实现的,ipv4的高位地址不均匀,按照低8位>比较合理)分隔成2^8份. 每一份写入到文件名为"tmp_{高8位地址}"的文件中,文件中的数据为低24位的

Go创建及结构体变量是指定字段值

package main import ( "fmt" ) type Stu struct { Name string Age int } func main() { //方式1 //在创建结构体变量时,就直接指定字段的值 var stu1 = Stu{"小明", 19} // stu1---> 结构体数据空间 stu2 := Stu{"小明~", 20} //类型推导并省略var //在创建结构体变量时,把字段名和字段值写在一起, 这种写

Linux下统计代码行数

使用wc统计代码行数最近写了一些代码,想统计一下代码的行数,在eclipse中好像没这功能,网上搜了一下才发现原来Linux有一个统计文件行数的命令wc.使用wc可以打印出每个文件和总文件的行数.字数和字节数,如果没有指定文件,则会读取标准输入(一般是终端)做统计.格式如下: Usage: wc [OPTION]... [FILE]... -c, --bytes, --chars print the byte counts -l, --lines print the newline count

Linux 下统计文件夹大小及文件数量

[查看文件夹大小] # /lib 目录大小 du -sh /lib # /lib 子目录大小 du -sh /lib/* # 查看 /lib 目录下普通文件大小 find /lib -type f | xargs ls -la | awk -F ' ' 'BEGIN{sum=0} {sum+=$5} END{printf "%d bytes\n", sum}' [统计文件数量] # 查看 /lib 目录的总文件数(包含7种文件类型.包含 /lib 目录自身) find /lib

【Linux】Linux下统计当前文件夹下的文件个数、目录个数

统计当前文件夹下文件的个数,包括子文件夹里的 ls -lR|grep "^-"|wc -l 统计文件夹下目录的个数,包括子文件夹里的 ls -lR|grep "^d"|wc -l 统计当前文件夹下文件的个数 ls -l |grep "^-"|wc -l 统计当前文件夹下目录的个数 ls -l |grep "^d"|wc -l 附: 统计输出信息的行数 wc -l 将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是

Linux下tar命令exclude选项排除指定文件或目录

在linux中可以用tar打包目录以方便传输or备份,我们先来看一个例子 test 文件夹有如下文件 1 2 3 4 5 6 7 8 9 10 [[email protected] ~]# ll test 总用量 8 -rw-r--r--. 1 root root 0 4月 14 22:18 a.jpg -rw-r--r--. 1 root root 0 4月 14 22:25 a.log -rw-r--r--. 1 root root 0 4月 14 22:18 a.t

猜你喜欢

从微信官方获取微信公众号名片：http://open.weixin.qq.com/qr/code/?username=haihongruanjian

从微信官方获取微信公众号名片:http://open.weixin.qq.com/qr/code/?username=haihongruanjian 个人的号,不知道怎么获取.

事务Transaction 那点事儿

Transaction 也就是所谓的事务了,通俗理解就是一件事情.从小,父母就教育我们,做事情要有始有终,不能半途而废. 事务也是这样,不能做一般就不做了,要么做完,要么就不做.也就是说,事务必须是一 ...

在绘制的扇形里加载一张图片

代码部分 CRect rect; GetClientRect(rect); pDC->SetMapMode(MM_ANISOTROPIC); pDC->SetWindowExt(rect. ...

CentOS 7.3验证Linux命令执行的优先级

在Linux中,不同的目录下可能有相同的文件.虽然同名,两个文件的作用却完全不同. 执行同一命令,可能会显示完全不同的结果.如pwd本来显示当前工作目录,我们却可以定义别名使它输出时间. 要了解命令执 ...

机器学习笔记（九）聚类算法及实践（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

这一周学校的事情比较多所以拖了几天,这回我们来讲一讲聚类算法哈. 首先,我们知道,主要的机器学习方法分为监督学习和无监督学习.监督学习主要是指我们已经给出了数据和分类,基于这些我们训练我们的分类器以期 ...

【LeetCode OJ 075】Sort Colors

题目链接:https://leetcode.com/problems/sort-colors/ 题目:Given an array with n objects colored red, white ...

[LeetCode] Largest Number 最大组合数

Given a list of non negative integers, arrange them such that they form the largest number. For exam ...

Java HashMap的死循环

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环.这个事情我4. ...

指令的编码与译码原理

指令集是处理器体系架构的重要组成部分.指令集有两个发展方面,包括以X86为代表的CISC(复杂指令集)和以ARM.MIPS为代表的RISC(精简指令集).CISC的目标是尽可能将常用的功能用最少甚至一 ...

jsp 基础语法

<html> <body> <h2>code/ </h2> <% !int day=3; %> <%if(a==1){%> &l ...

一个选择，错过了也就错过了！

人生就是一个一个,不断的择! 择喜欢的东西, 择不喜欢的东西, 不得不择不喜欢的东西. 择兴趣,择专业, 择工作,择创业, 择对象,择婚姻, 每一个选择,通往不同的道路! 时后悔,时坚定,时坚持! 时 ...

详解 awk 工具的简单使用方法

来源:jarly https://my.oschina.net/jarly/blog/898144 [转注]:awk 是一个强大的文本分析工具,本教材只是简单的入门.结合Linux其它文件操作,she ...

二维数组的指针

定义一个一维数组 int a[3]; 那么他的指针是: int *p=a 定义一个二维数组: int b[3][6]; 指针:int **P=b //错误正确的指针是: int (*p)[6] ...

制作3D旋转视频展示区

CSS3 3D变形制作视频展示区 <!doctype html> <html lang="en"> <head> <meta charse ...

简谈python反射

写出一个简单类:import sysclass webserver(object): def __init__(self,host,post): self.host = host self.post ...

实现自动生成30道四则运算题目

这个问题我按照老师的方法,把他分成3部分进行完成, 输入:本程序没有输入略过, 代码实现功能: 1.先生成1道题,30道就是重复30次生成 2.运算符问题可以先定义一个字符串string d=&quo ...

士夫妇赶到银行卡的开户行中国邮政储蓄银行西安市

http://baozoumanhua.com/users/10675389/talkingshttp://baozoumanhua.com/users/10675396/talkingshttp:/ ...

java并发编程-线程安全1：servlet访问统计

非安全: @NotThreadSafe public class UnsafeCountingFactorizer extends GenericServlet implements Servlet ...

CentOS 6.5 下安装 Zabbix 2.4

1.依赖包安装(安装zabbix必须基于LAMP或LNMP环境) yum install -y gcc gcc-c++ autoconf httpd php mysql mysql-server ph ...

oracle 查看表行数所占空间大小

最新数据库空间有感觉捉急了,上次,删了些数据空了800+G,撑了一个多月,现在还有400+G,每天10G的增量,多少空间也感觉不够用啊. 不能加硬盘,就只有删数据了.. 删数据,人懒,直接找表行最多, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.