linux命令 sort文本去重

对于sort 可以输出 不重复的字段的用法

sort -u <taskfile>

扩展 命令 sortx.sh

#!/bin/bash

/bin/sort -u $1 -o $1

此命令扩展 的意图 去除指定的文件中重复的单字 并写回原文件

这个命令对于基于文本处理并作模型构建的同学有方便之处 不必要自己写去重工具了

时间: 2024-10-18 08:15:56

linux命令 sort文本去重的相关文章

如何使用linux命令统计文本中某个单词的出现频率

使用这个命令查出文本中的单词出现频率按照由高到底排序 cat words.txt |tr -cs "[a-z][A-Z]" "[\012*]"|tr A-Z a-z|sort|uniq -c|sort -k1nr -k2|head -10 但是有时我们想查找出某一个单词的出现频率这时我们可以使用如下几个命令 文件名称:file  查找单词名称:word 操作命令: (1)more file | grep -o word | wc -l (2)cat file | g

shell命令技巧——文本去重并保持原有顺序

简单来说,这个技巧对应的是如下一种场景 假设有文本如下 cccc aaaa bbbb dddd bbbb cccc aaaa 现在需要对它进行去重处理,这个很简单,sort -u就可以搞定,但是如果我希望保持文本原有的顺序,比如这里有两个aaaa,我只是希望去掉第二个aaaa,而第一个aaaa在bbbb的前面,去重后仍旧要在它前面,所以我期望的输出结果是 cccc aaaa bbbb dddd 当然,这个问题本身并不难,用C++或python写起来都很容易,但所谓杀机焉用牛刀,能用shell命令

Linux命令之文本处理(一)

wc命令 用来统计文件的字符数.行数.单词数等,很常用的命令(面试的时候竟然没想起来这个命令,我是有多么挫...) 使用格式为:wc options file-lists,若file-lists为空或"-",则表示从标准输入读入数据:options为空的时候,默认输出的数据依次是行数.单词数.字节数,如下: m@meng:~$ wc examples.desktop 240 569 8980 examples.desktop 下面介绍各个选项: -c:只显示字节数,注意是字节而不是字符

linux命令sort用法

sort是在Linux里非常常用的一个命令,管排序的通过man sort查看sort用法 -b, --ignore-leading-blanks              ignore leading blanks -d, --dictionary-order              consider only blanks and alphanumeric characters -f, --ignore-case              fold lower case to upper c

Linux命令之文本处理(二)

cut命令 cut命令用来操作文件的列,可以视为列编辑器:与之对应是大多数的行"编辑器",如sed.grep.sort等,它们操作文本时,以行为单位. cut的主要功能就是输出文本的某一列或几列.对于英文文本,一个字符就占据一列,所以输出几列就是输出几个字符. 主要选项如下: -c : 指定要输出的列数,可以是单个数字,也可以是如3-5之类的范围. m@meng:~$ cat new apple 3 Apple 7 pear 6 pear 4 banana 1 orange 11 m@

Linux命令-vim文本编辑器|文件查找

一.vim文本编辑器 vi      vim      emacs   gedit ---------------------------------------------------------------------------------------- [[email protected] Desktop]# whereis vi vi: /bin/vi /usr/share/man/man1p/vi.1p.gz/usr/share/man/man1/vi.1.gz [[email pr

Linux命令之文本搜索工具grep、egrep、fgrep

grep即global search regular expression_r(RE) and print out the line,是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来. grep家族包括grep.egrep和fgrep:egrep是grep的扩展:fgrep查找一个或多个与给出的字符串或词组相匹配文件中的行,不支持规则表达式 语法:grep [OPTIONS] PATTERN [FILE...] 常用参数选项 --color=auto:对匹配到的串做高亮

Linux命令:文本处理工具awk详解一

awk命令简介: awk是一个强大的文本分析工具,通常,awk是以文件的每一行,为处理单位的.awk每接收文件的一行,然后执行相应的命令,来处理文本.  1.命令格式: awk 'pattern {action}'{filenames} 其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所 执行的一系列命令.花括号({})不需要在程序中始终出现,但它们用于根据特定的 模式对一系列指令进行分组. pattern就是要表示的正则表达式,用斜杠括起来. 调用a

linux命令之文本查看

vi掌握练习: 英文文档,相同的单词复制粘贴光标移动编辑等操作: cat:显示文件所有内容,小文件查看时使用. 缺点:文件大时不方便查看,文件很大时,会抢占系统资源,会出现命令崩溃. [[email protected] ~]$ cat /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm: