awk除去重复行

awk去除重复行,思路是以每一行的$0为key,创建一个hash数组,后续碰到的行,如果数组里已经有了,就不再print了,否则将其print

测试文件:

用awk:

用sort+uniq好像出错了:

到底是为什么uniq出错了呢?不知道,但是awk真的很强大。两者的差异还在于,awk保持了文件中原本的每行的顺序,而sort必须排序,这样就变成按字母或某种其他规则的排序了。

PS:uniq出错好像是因为\r\n的问题。

PS:错了。有的教程上,uniq -u就跟uniq是一样的。我用cygwin,uniq- u只显示不重复行,uniq则显示所有行,只不过去除重复。

时间: 2024-09-27 11:02:26

awk除去重复行的相关文章

[Linux]去除重复行

文本处理时,经常要删除重复行,下面是三种方法 第一,用sort+uniq,注意,单纯uniq是不行的. sort -n test.txt | uniq 第二,用sort+awk命令,注意,单纯awk同样不行,原因同上. [[email protected] ~]$ uniq --help 用法:uniq [选项]... [文件] 从输入文件或者标准输入中筛选相邻的匹配行并写入到输出文件或标准输出. 不附加任何选项时匹配行将在首次出现处被合并. 长选项必须使用的参数对于短选项时也是必需使用的. -

sql里将重复行数据合并为一行,数据用逗号分隔

DECLARE @T1 table ( UserID int , UserName nvarchar(50), CityName nvarchar(50) ); insert into @T1 (UserID,UserName,CityName) values (1,'a','上海') insert into @T1 (UserID,UserName,CityName) values (2,'b','北京') insert into @T1 (UserID,UserName,CityName)

ROW_NUMBER() OVER函数的基本用法,也可用于去除重复行

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号. 示例: xlh           row_num 1700              1 1500              2 1085             

查询消除重复行

--重复行select department_id from employees; select distinct department_id from employees; select distinct department_id,job_id from employees; 只有当110 AC_ACCOUNT 和 110 AC_MGR 相同时,才可以合并消除重复(要么左边改变成右边,要么右边变成左边)

SQL Server删除重复行的6个方法

SQL Server删除重复行是我们最常见的操作之一,下面就为您介绍六种适合不同情况的SQL Server删除重复行的方法,供您参考. 1.如果有ID字段,就是具有唯一性的字段 delect   table  tableName  where   id   not   in   (   select   max(id)   from   table   group   by   col1,col2,col3...   )    group   by   子句后跟的字段就是你用来判断重复的条件,如

如何用UE(UltraEdit)删除重复行?--转

原文地址:https://www.zhengjie.com/question/bb148773 使用UE(UltraEdit)的高级排序功能就可以删除掉所有的重复行. 操作步骤 1.文件—排序(R)—高级排序/选项(A). 2.在弹出的“高级排序/选项”对话框中勾选“删除重复项”—根据自己的需要选择升序或降序—点击“排序”按钮. 3.高级排序后的结果,已经将重复的数据全部删除.

Linux 命令 - uniq: 通知或忽略重复行

给定一个已排好序的文件,uniq 会删除重复行并将结果输出到标准输出中.uniq 通常与 sort 结合使用以删除 sort 输出内容中的重复行. 命令格式 uniq [OPTION]... [INPUT [OUTPUT]] 命令参数 -c, --count 输出重复行列表,并且重复行前面加上其出现的次数. -d, --repeated 只输出重复行. -f, --skip-fields=N 忽略每行前 N 个字段.字段以空格隔开,这与 sort 类似,但不能提供参数设置可选择的字段分隔符. -

去除源文件中的重复行的程序流程及其C代码实现

(本文正在参加2015博客之星评选,诚邀你来投票,谢谢:http://vote.blog.csdn.net/blogstar2015/candidate?username=zhouzxi) 一.需求描述 要求对一个包含若干行记录且某几条记录相同的文件(源文件)实现去重操作,并将去重之后的记录写入到另外一个文件(目的文件)中.也即最后生成的文件中没有内容相同的两行记录.如果源文件中两条记录之间有空行,则在目的文件中一并将其去掉. 两条记录相同的标准是: 1) 字符个数及内容完全相同. 2) 去除空

sort排序命令 uniq 去除排序过的文件中的重复行 cut提取命令 wc 统计命令

sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出.如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序. sort语法 [[email protected] ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数: -f :忽略大小写的差异,例如 A 与 a 视为编码相同: -b :忽略最前面的空格符部分: -M :以月份的名字来排序,例如 JAN, DEC 等等的排序方法: -n :使用『纯数字