awk过滤统计不重复的行

awk以‘\t’为分隔符区分列

cat logs | grep IconsendRedirect | grep 1752 | awk -F‘\t‘ ‘{print $8}‘| wc -l
cat hello.txt | awk ‘!a[$0]++‘ | wc -l

  

时间: 2024-10-12 21:48:18

awk过滤统计不重复的行的相关文章

使用awk统计字段重复实践

awk awk是一种规格化文件的分析工具, 主要处理对象类似数据库导出的条目文本文件, 其中一行,就对应一个记录,每个记录包含若干个字段. 类似这种文本: [[email protected] ~]# last -n 5 <==仅取出前五行 root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged in root pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41) root pts/1 19

awk去重以某列重复的行

[[email protected] cc]# cat 2.txt adc 3 5 a d aa 3 adfa d ba 3 adf 去重第一列重复的行: [[email protected] cc]# cat 2.txt |awk '!a[$1]++{print}'adc 3 5 a d a 重复的行取最上面一行记录 去重以第一列和第二列重复的行: [[email protected] cc]# cat 2.txt |awk '!a[$1" "$2]++{print}'adc 3 5

linux awk用法(主要为命令行)

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理. awk有3个不同版本: awk.nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本. awk其名称得自于它的创始人 Alfred Aho .Peter Weinberger 和 Brian Kernighan 姓氏的首个字母.实际上 AWK

使用 awk 过滤文本或文件中的字符串

当我们在 Unix/Linux 下使用特定的命令从字符串或文件中读取或编辑文本时,我们经常需要过滤输出以得到感兴趣的部分.这时正则表达式就派上用场了. 什么是正则表达式? 正则表达式可以定义为代表若干个字符序列的字符串.它最重要的功能之一就是它允许你过滤一条命令或一个文件的输出.编辑文本或配置文件的一部分等等. 正则表达式的特点 正则表达式由以下内容组合而成: 普通字符,例如空格.下划线.A-Z.a-z.0-9. 可以扩展为普通字符的元字符,它们包括: (.) 它匹配除了换行符外的任何单个字符.

用awk数组统计日志访问状况和网络连接状态

统计ip及此ip访问的pv数 #awk '{s[$1]++}END{for(key in s) print key,s[key]}' 12.log | sort -k2rn | head 统计当前网络各种状态的连接数#netstat -na | awk '/^tcp/{s[$6]++}END{for(key in s) print key,s[key]}' 注:awk也支持过滤功能 /^tcp/过滤以tcp开头的行 #netstat -an | grep ESTAB | awk -F "[ :]

使用跟踪标记查看过滤统计信息是否被使用

原文:使用跟踪标记查看过滤统计信息是否被使用     在某些情况下,表中数据较多,且分布不均匀的时候,执行计划的估计行数往往会有很大偏差,因此SQL Server 2008引入了过滤统计信息,意味着只对表中的特定数据计算统计信息.那么在调优查询的过程中如何知道语句是否使用了过滤统计信息呢?SQL Server提供了一个隐藏的跟踪标记来支持这一过程.下面Demo可以展示如何使用该跟踪标记.       我们首先对AdventureWorks的SalesOrderDetail做一个简单的查询,代码如

使用过滤统计信息解决参数预估错误

参数预估是SQL Server里一颗隐藏的宝石.一般而言,参数预估指的是,在查询编译期间,查询优化器尝试找出在执行计划里从各个运算符平均返回的行数.这个估计用来驱动计划本身生成并选择正确的计划运算符——例如像Nested Loop, Merge Join,还是Hash Join的物理连接.当这些估计错误时,查询优化器就会选择错误的计划运算符,相信我——你的查询就会非常非常非常慢! 查询优化器使用称为统计信息对象作为参数预估.每次当你创建一个索引,SQL Server在下面也会创建一个统计对象.这

删除相邻重复的行

notepad++ 删除相邻重复的行查找 (.+?)(\r\n)\1 替换为 \1 sed 删除重复行sed -nr '1h;1!H;${x;s/(.+)(\n)\1/\1/g;p}' num.txt-n 安静模式,sed 读取下一行之前,都会把模式空间的内容,打印到标准输出,-n取消这种打印.-r 支持扩展正则表达式1h;1!H; 把所有行放到保留空间$ 最后一行,对最后一行处理,然后交换模式空间与保留空间的内容,正则表达式替换掉相邻重复的行. sed好像不支持忽略量词优先,暂时不确定. aw

SQL Server 执行计划利用统计信息对数据行的预估原理以及SQL Server 2014中预估策略的改变

前提  本文仅讨论SQL Server查询时, 对于非复合统计信息,也即每个字段的统计信息只包含当前列的数据分布的情况下, 在用多个字段进行组合查询的时候,如何根据统计信息去预估行数的. 利用不同字段的统计信息做数据行数预估的算法原理,以及SQL Server 2012和SQL Server 2014该算法的差异情况, 这里暂时不涉及复合统计信息,暂不涉及统计信息的更新策略及优化相关话题,以及其他SQL Server版本计算方式. 统计信息是什么 简单说就是对某些字段的数据分布的一种描述,让SQ