linux文本处理工具及正则表达式

cat命令:查看文本内容

cat [选项]... [文件]...

-E    显示行结束符

-n    显示文本内容时显示行号

-A    显示所以控制符

-b    非空行编号

-s     压缩连续的空行成一行

[[email protected] ~]# cat -n /etc/issue > test.txt    ##查看文件内容并显示行号,重定向到test.txt文件中
[[email protected] ~]# cat test.txt
     1    \S
     2    Kernel \r on an \m
     3    
[[email protected] ~]# cat > file <<EOF    ##创建file文件,输入内容以EOF结束
> kernel \r on an \m
> EOF
[[email protected] ~]# cat file
kernel \r on an \m

more       分页显示

more [OPTIONS...] FILE...

less  分页显示,是man命令使用的分页器

[[email protected] ~]# less /etc/httpd.conf
[[email protected] ~]# cat /etc/httpd.conf |more

head命令 : 

head [OPTION]... [FILE]...

    -n  显示文件前n行,默认显示前10行

    -c # 显示文件前#个字节内容

    -q  不显示包含给定文件名的文件头

[[email protected] ~]# head -5 /etc/fstab     ##显示文件前5行
#
# /etc/fstab
# Created by anaconda on Mon May  1 04:49:06 2017
#

[[email protected] ~]# head -q -n 5 /etc/fstab /etc/issue    ##显示多个文件前5行,并且不显示文件头

#
# /etc/fstab
# Created by anaconda on Mon May  1 04:49:06 2017
#
\S
Kernel \r on an \m  

tail命令:

tail [OPTION]... [FILE]...

-f   实时查看,常用监控日志文件

   -c #   显示后#字节

   -n #  显示后#行,默认显示行10行

[[email protected] ~]# tail -2 /etc/passwd    ##显示文件后2行
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
apache:x:48:48:Apache:/usr/share/httpd:/sbin/nologin
[[email protected] ~]# tail -f /var/log/messages    ##不停地去读最新的内容,有实时监视的效果,用Ctrl+c来终止
May 2 02:46:26 localhost systemd: Configuration file /usr/lib/systemd/system/wpa_supplicant.service is marked executable. Please remove executable permission bits. Proceeding anyway. May 2 02:46:26 localhost yum[16325]: Installed: httpd-2.4.6-45.el7.centos.4.x86_64 May 2 03:01:01 localhost systemd: Started Session 10 of user root. May 2 03:01:01 localhost systemd: Starting Session 10 of user root. May 2 03:45:49 localhost systemd-logind: Removed session 4. May 2 03:46:20 localhost systemd: Started Session 11 of user root. May 2 03:46:20 localhost systemd-logind: New session 11 of user root. May 2 03:46:20 localhost systemd: Starting Session 11 of user root. May 2 04:01:01 localhost systemd: Started Session 12 of user root. May 2 04:01:01 localhost systemd: Starting Session 12 of user root.

 cut命令:

cut [OPTION]... [FILE]...

  -d  指明分隔符,默认tab

  -f  第# 个字段

  #,#[,#] :离散的多个字段,例如1,3,6

  #-# :连续的多个字段,  例如1-6

  混合使用:1-3,7

  -c 按字符切割

  --output-delimiter=STRING指定输出分隔符

显示文件前10行,以“:”作为分隔符打印第1和第7个字段并分隔符换成空格输出:

[[email protected] ~]# head /etc/passwd |cut -d ":" -f1,7 --output-delimiter="   "  ##查看系统用户使用的shell
root   /bin/bash      
bin   /sbin/nologin
daemon   /sbin/nologin
adm   /sbin/nologin
lp   /sbin/nologin
sync   /bin/sync
shutdown   /sbin/shutdown
halt   /sbin/halt
mail   /sbin/nologin
operator   /sbin/nologin
[[email protected] ~]# ip addr |tail -4 |head -1 |cut -d "/" -f1 |cut -d " " -f6  ##获取ip地址
192.168.25.102

paste命令:

  paste [OPTION]... [FILE]...

  -d  分隔符: 指定分隔符,默认用TAB

  -s     所以行合并成一行显示

[[email protected] ~]# paste /etc/resolv.conf /etc/issue    ##合并输出两个文件的内容
# Generated by NetworkManager    \S
nameserver 202.106.46.151    Kernel \r on an \m
nameserver 202.106.195.68
[[email protected] ~]# paste -s /etc/issue    ##对输出的内容独立占一行
\S    Kernel \r on an \m    

wc命令:统计文件内容

-l      统计行数

-w    统计单词个数

-c     统计字节数

-m    只计数字符总数

    -L  打印最长行的长度

[[email protected] ~]# cat /etc/passwd |wc -l  ##统计文件的行数
22
[[email protected] ~]# echo "aaa bbb ccc" |wc -w    ##统计输出的单词数量
3
[[email protected] ~]# echo "abcdef" |wc -m    ##统计输出有多少个字节
7

文本排序:sort [options] file(s)

  -r   逆序排序

  -n   根据字符串数值进行比较

  -f   忽略字符大小写

  -u   去重。配合-c,严格校验排序;不配合-c,则只输出一次排序结果

  -t   使用指定的分隔符代替非空格到空格的转换

  -k 1 在位置1 开始一个key,在位置2 终止(默认为行尾)

[[email protected] ~]# head /etc/passwd |sort -t ":" -k 3nr    ##以“:”分割对第三个字段数值进行倒序排列
operator:x:11:0:operator:/root:/sbin/nologin
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
halt:x:7:0:halt:/sbin:/sbin/halt
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
sync:x:5:0:sync:/sbin:/bin/sync
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
root:x:0:0:root:/root:/bin/bash
[[email protected] ~]# cat /etc/passwd |sort -t‘:‘ -k 7 -u    ##以“:”分割对第7个字段排序,去重
root:x:0:0:root:/root:/bin/bash
sync:x:5:0:sync:/sbin:/bin/sync
halt:x:7:0:halt:/sbin:/sbin/halt
bin:x:1:1:bin:/bin:/sbin/nologin
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

uniq 命令:从输入中删除重复的前后相接的行

   uniq [OPTION]... [FILE]...

  -c:  显示每行重复出现的次数;

  -d:  仅显示重复过的行;

  -u:  仅显示唯一的行;

  -i:  比较时不区分大小写

[[email protected] ~]# uniq -c ip.txt     ##显示重复行出现的次数,相邻行且完全一样为重复
      3 101.200.78.99
      1 103.41.52.94
      2 106.185.47.161
      1 101.200.78.99
      2 113.240.250.155
      1 13.0.782.215
      1 185.130.5.231

文件比较:

diff命令:比较两个文件之间的区别

  -r  递归比较

  -u  输出“统一的(unified )

  patch 命令复制在其它文件中进行的改变(要谨慎使用!)

  -b   选项来自动备份改变了的文件

[[email protected] ~]# diff file1.txt file2.txt
8c8      ##表示第8行有区别
< 113.240.250.155
---
> 133.240.250.155

替换和删除字符:

tr [OPTION]... SET1 [SET2]

-c 或——complerment :取字符集的补集

-d 或——delete :删除所有属于第一字符集的字符;

-s 或—squeeze-repeats :把连续重复的字符以单独一个字符表示

-t 或--truncate-set1 :先删除第一字符集较第二字符集多出的字符

[[email protected] ~]# tr -s ‘\n‘  < file1.txt     ##删除空行
103.41.52.94
106.185.47.161
\S
Kernel \r on an \m
106.185.47.161
[[email protected] ~]# tr  A-Z a-z < file1.txt     ##把大写字母换成小写
103.41.52.94
106.185.47.161
\s
kernel \r on an \m

106.185.47.161
grep命令:过滤文本内容

grep [OPTIONS] PATTERN [FILE...]

-i       查找时忽略大小写

-v     取反

    -n      显示匹配的行号

     -c     统计匹配的行数

    -o     仅显示匹配到的字符串;

    -q    静默模式,不输出任何信息

  -A #   after,  后#行 行

  -B #  before,  前#行 行

  -C #   context,  前后各#行 行

  -e   实现多个选项间的逻辑or 关系

  -w   整行匹配整个单词

  -E   使用扩展正则表达式

正则表达式:

.     匹配任意单个字符;

[]    匹配指定范围内的任意单个字符

[^]  匹配指定范围外的任意单个字符

*   匹配前面的字符任意次,包括0次 次贪婪模式:尽可能长的匹配

.*   任意长度的任意字符

\?   匹配其前面的字符0 或1次

\+   匹配其前面的字符至少1次

\{m\}   匹配前面的字符m次

\{m,n\}   匹配前面的字符至少m 次,至多n次

\{,n\}   匹配前面的字符至多n次 次

\{m,\}   匹配前面的字符至少m次

^   行首锚定,用于模式的最左侧

$   行尾锚定,用于模式的最右侧

^PATTERN$  用于模式匹配整行

^$   空行

^[[:space:]]*$   空白行

\< 或 或 \b   词首锚定,用于单词模式的左侧

\> 或 或 \b   词尾锚定;用于单词模式的右侧

\<PATTERN\>   匹配整个单词

\(\)    将一个或多个字符捆绑在一起,当作一个整体进行处理

[:alpha:] 所有字母,包括大、小写

[:alnum:] 所有字母和数字

[:upper:] 所有大写字母

[:lower:] 所有小写字母

[:digit:] 所有数字

[:punct:] 所有标点符号

[:space:] 空格和Tab

扩展正则表达式:

.    任意单个字符

[]    指定范围的字符

[^]    不在指定范围的字符

*   匹配前面字符任意次

?   0 或1次 次

+   1 次或多次

{m}   匹配m次

{m,n}   至少m ,至多n次

^  行首

$   行尾

\<, \b  语首

\>, \b    语尾

分组  ()

  后向引用:\1, \2, ...

或者:a|b

C|cat: C 或cat

(C|c)at:Cat 或cat

[[email protected] ~]# grep ‘^\(root\|apache\)‘ test.txt   ##过滤以root或apache开头的行
root:x:0:0:root:/root:/bin/bash
apache:x:48:48:Apache:/usr/share/httpd:/sbin/nologin
[[email protected] ~]# grep -R /sbin/nologin *     ##递归从所以文件中查询匹配的内容
test.txt:bin:x:1:1:bin:/bin:/sbin/nologin
test.txt:daemon:x:2:2:daemon:/sbin:/sbin/nologin
[[email protected] ~]# ip addr |grep "dynamic" |tr -s " " |cut -d " " -f3 |cut -d "/" -f1  ##过滤ip地址
192.168.25.102
[roo[email protected] ~]# ip addr |grep -E -o "([0-9]{1,3}[\.]){1,3}[0-9]{1,3}"
127.0.0.1
192.168.25.102
192.168.25.255
[[email protected] ~]# df -Th |tr -s " " |sort -k 6nr |head -1  ##查出使用率的最大百分比值的分区
/dev/sda1 xfs 497M 125M 373M 25% /boot
[[email protected] ~]# cat /etc/passwd  |sort -t ‘:‘ -k 3n |tail -1 |cut -d ":" -f1,3,7
systemd-bus-proxy:999:/sbin/nologin      ##找出uid最大值的用户,并显示用户名、UID、及shell类型
时间: 2024-10-09 07:51:37

linux文本处理工具及正则表达式的相关文章

Linux篇 | 文本处理工具和正则表达式 (一)

文本处理工具和正则表达式 如果用一句话形容Linux系统,我想就是"一切皆文件"在适合不过了.系统的服务.软件.日志.命令的输出结果都是基于文本的,所以我们很有必要知道Linux的常用的文本处理工具有哪些?而且,我们用的这些处理文本工具都离不开一个技术:"正则表达式",它不止适用于Linux,对于一些语言,如Java.Python都能用,甚至Windows系统里也能用正则表达式.那么,如何灵活的运用正则表达式就是这篇博客的意义. 一.文本处理工具 1.抽取文本的工具

Linux篇 | 文本处理工具和正则表达式(二)

文本处理工具和正则表达式 Linux文本处理三剑客 grep:文本过滤(模式:pattern)工具 >grep, egrep, fgrep(不支持正则表达式搜索) sed:stream editor,文本编辑工具 awk:Linux上的实现gawk,文本报告生成器 本篇主要讲述grep 一.grep 作用:文本搜索工具,根据用户指定的"模式"对目标文本逐行进行匹配检查:打印匹配到的行.(模式就是"正则表达式") 模式:由正则表达式字符及文本字符所编写的过滤条件

linux文本处理工具

linux文本处理工具 1.Linux 文件系统上的特殊权限: SUID     SGID   Sticky 进程的安全上下文:(1)任何一个可执行程序文件能不能启动为进程,取决发起者对程序文件是否拥有执行去权限 (2)启动为进程后,其属主为发起者,属组为发起者所属的组 (3)进程访文件的权限,取决于进程的发起者 (a)  进程的发起者,同文件的属主:则应用文件属主权限                                            (b)  进程的发起者,属于文件属组:则

Linux文本处理工具——Grep

Grep简介 全名:Global search Regular expression and Print out the line. 功能:文本搜索工具,根据用户指定的文本模式(搜索条件)对目标文件进行逐行搜索,显示能匹配到的行. Linux的三大文本处理工具之一,可以说学好grep命令无疑是重要的,可以说学好grep也是不容易的,因为grep里面要用到最烦人的正则表达式. grep语法格式 grep [option]... 'PATTERN' FILE... [option]:表示可以跟选项,

文本处理工具和正则表达式

文本处理工具和正则表达式: 文本查看工具: 1,less,more 查看命令的执行的结果.区别在于less查看命令的执行结果,可以向上和向 下翻页,而more仅可以向下翻页 2,head 从文件的开始查看内容,默认是显示10行 3,tail 从文件尾部查看内容,默认是显示10行 4,cut 截取命令的执行结果,不过cut属于列截取 5,rev 倒置命令的显示结果 6,tac,cat 查看文件内容 分析文本工具: 1,sort sort是对文本中的内容进行排序,它的排序的速度比其他命令的速度要快

Linux文本处理工具AWK使用解析

在linux系统上有三大文本处理工具分别是:grep,sed,awk,这次主要来看看awk. awk  option  'pattern'  file -F    指定分隔符: -v     申明自定义变量: 查看当前系统上,用户名和用户shell,输出分隔符为~. # awk -F: 'BEGIN{OFS="~";print "UserName   Shell"}{print $1,$7}END{print "================end===

Linux文本处理工具之join,paste

大纲 1.join是什么?有什么作用? 2.join语法格式 3.实战演练 4.引入paste命令 1.join是什么?有什么作用? Linux下最常用的数据文件格式是文本格式的,使用分隔符来区分不同的字段,比如冒号(:).制表符.空格等.像常见的/etc/passwd和 /etc/group两个文件就是用":"来分隔的.这种文本格式我们可以视为文本数据库,既方便人去阅读,也适合程序处理,通常某列类似于数据库中的关键字. join命令就是一个根据关键字合并数据文件的命令(join li

grep文本查看工具及正则表达式

grep文本查看工具及正则表达式 grep:搜索及过滤文本工具: (根据用户所指定的"模式"搜索,过滤条件"对目标文件进行过滤性匹配):grep自带正则表达式引擎工具. 所谓模式:由正则表达式所得元字符及普通文本字符所编写出来的过滤条件"模式" grep:三种支持模式: grep:基本正则表达式 egrep:支持扩展正则表达式 fgrep :不支持正则表达式 三种支持模式因其可以(grep -E:切换扩展,egrep-G:切换基本,分别有以-F切换fgre

Linux 文本处理工具

Linux 文本处理工具 wc 打印行.词.字节的数量 cut 按列切分文本  sort 排序 uniq 消除重复行 wc 打印行.词.字节的数量 语法: wc [OPTION]... [FILE]... 选项: -l:line 统计行数 -w:words 统计单词数 -c:characters 统计字符数 示例: [[email protected] ~]$ cat wctest hello world 123 [[email protected] ~]$ wc -l wctest    #统