Linux 高级文本处理命令

1.2.1 cut命令

cut命令可以从一个文本文件或者文本流中提取文本列。

cut语法

[root@www ~]# cut -d‘分隔字符‘ -f fields     ## 用于有特定分隔字符

[root@www ~]# cut -c 字符区间            ## 用于排列整齐的信息

选项与参数:

-d:后面接分隔字符。与 -f 一起使用;

-f:依据 -d 的分隔字符将一段信息分割成为数段,用 -f 取出第几段的意思;

-c:以字符 (characters) 的单位取出固定字符区间;

PATH 变量如下

[root@www ~]# echo $PATH

 /bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

# 1 | 2       | 3   | 4       | 5            | 6            | 7

将 PATH 变量取出,找出第五个路径。

# echo $PATH | cut -d‘:‘ -f 5

/usr/local/bin

将 PATH 变量取出,找出第三和第五个路径。

#echo $PATH | cut -d ‘:‘ -f 3,5

/sbin:/usr/local/bin

将 PATH 变量取出,找出第三到最后一个路径。

echo $PATH | cut -d ‘:‘ -f 3-

/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

将 PATH 变量取出,找出第一到第三个路径。

#echo $PATH | cut -d ‘:‘ -f 1-3

/bin:/usr/bin:/sbin:

将 PATH 变量取出,找出第一到第三,还有第五个路径。

#echo $PATH | cut -d ‘:‘ -f 1-3,5

/bin:/usr/bin:/sbin:/usr/local/bin

实用例子:只显示/etc/passwd的用户和shell

#cat /etc/passwd | cut -d ‘:‘ -f 1,7

root:/bin/bash

daemon:/bin/sh

bin:/bin/sh

1.2.2 sed命令

1/ 删除:d命令

$ sed ‘2d‘ example           -----删除example文件的第二行。

$ sed ‘2,$d‘ example        -----删除example文件的第二行到末尾所有行。

$ sed ‘$d‘ example            -----删除example文件的最后一行。

$ sed ‘/test/‘d example        -----删除example文件所有包含test的行。

2/ 替换:s命令

$ sed ‘s/test/mytest/g‘ example

##  在整行范围内把test替换为mytest。如果没有g标记,则只有每行第一个匹配的test被替换成mytest。

$ sed -n ‘s/^test/mytest/p‘ example

##  (-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说,如果某一行开头的test被替换成mytest,就打印它。

$ sed ‘s/^192.168.0.1/&localhost/‘ example

##  &符号表示追加一个串到找到的串后。所有以192.168.0.1开头的行都会被替换成它自已加 localhost,变成192.168.0.1localhost。

$ sed -n ‘s/\(love\)able/\1rs/p‘ example

##  love被标记为1,所有loveable会被替换成lovers,而且替换的行会被打印出来。

$ sed ‘s#10#100#g‘ example

##  不论什么字符,紧跟着s命令的都被认为是新的分隔符,所以,“#”在这里是分隔符,代替了默认的“/”分隔符。表示把所有10替换成100。

选定行的范围:逗号

$ sed -n ‘/test/,/check/p‘ example

## 所有在模板test和check所确定的范围内的行都被打印。

$ sed -n ‘5,/^test/p‘ example

## 打印从第五行开始到第一个包含以test开始的行之间的所有行。

$ sed ‘/test/,/check/s/$/sed test/‘ example

## 对于模板test和west之间的行,每行的末尾用字符串sed test替换。

多点编辑:e命令

$ sed -e ‘1,5d‘ -e ‘s/test/check/‘ example

##  (-e)选项允许在同一行里执行多条命令。如例子所示,第一条命令删除1至5行,第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令,那么第一个替换命令将影响第二个替换命令的结果。

$ sed --expression=‘s/test/check/‘ --expression=‘/love/d‘ example

## 一个比-e更好的命令是--expression。它能给sed表达式赋值。

3/ 从文件读入:r命令

$ sed ‘/test/r file‘ example

-----file里的内容被读进来,显示在与test匹配的行下面,如果匹配多行,则file的内容将显示在所有匹配行的下面。

4/ 写入文件:w命令

$ sed -n ‘/test/w file‘ example

-----在example中所有包含test的行都被写入file里。

5/ 追加命令:a命令

$ sed ‘/^test/a\\--->this is a example‘ example

##  ‘--->this is a example‘被追加到以test开头的行后面,sed要求命令a后面有一个反斜杠。

6/ 插入:i命令

$ sed ‘/test/i\\some thing new -------------------------‘ example

如果test被匹配,则把反斜杠后面的文本插入到匹配行的前面。

7/ 下一个:n命令

$ sed ‘/test/{ n; s/aa/bb/; }‘ example

-----如果test被匹配,则移动到匹配行的下一行,替换这一行的aa,变为bb,并打印该行,然后继续。

8/ 退出:q命令

$ sed ‘10q‘ example

-----打印完第10行后,退出sed。

1.2.3 awk命令

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。

假设last -n 5的输出如下

[root@www ~]# last -n 5        ## 仅取出前五行

root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in

root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)

root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)

dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)

root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)

如果只是显示最近登录的5个帐号

# last -n 5 | awk  ‘{print $1}‘

root

root

root

dmtsai

root

awk工作流程是这样的:读入有‘\n‘换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键",所以$1表示登录用户,$3表示登录用户ip,以此类推。

如果只是显示/etc/passwd的账户

# cat /etc/passwd |awk  -F ‘:‘  ‘{print $1}‘

root

daemon

bin

sys

这种是awk+action的示例,每行都会执行action{print $1}。

-F指定域分隔符为‘:‘

如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割

#cat /etc/passwd |awk  -F ‘:‘  ‘{print $1"\t"$7}‘

root    /bin/bash

daemon  /bin/sh

bin     /bin/sh

sys     /bin/sh

如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

cat /etc/passwd |awk  -F ‘:‘  ‘BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}‘

name,shell

root,/bin/bash

daemon,/bin/sh

bin,/bin/sh

sys,/bin/sh

....

blue,/bin/nosh

awk工作流程是这样的:先执行BEGING,然后读取文件,读入有/n换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作action。接着开始读入第二条记录······直到所有的记录都读完,最后执行END操作。

搜索/etc/passwd有root关键字的所有行

#awk  -F:  ‘/root/‘  /etc/passwd

root:x:0:0:root:/root:/bin/bash

这种是pattern的使用示例,匹配了pattern(这里是root)的行才会执行action(没有指定action,默认输出每行的内容)。

搜索支持正则,例如找root开头的: awk -F:  ‘/^root/‘  /etc/passwd

搜索/etc/passwd有root关键字的所有行,并显示对应的shell

# awk  -F‘:‘  ‘/root/{print $7}‘  /etc/passwd

/bin/bash

这里指定了action{print $7}

统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容:

#awk  -F ‘:‘  ‘{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}‘ /etc/passwd

filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash

filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh

filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh

filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以让代码更加简洁,易读

awk  -F ‘:‘  ‘{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}‘ /etc/passwd

原文地址:https://www.cnblogs.com/Transkai/p/10404293.html

时间: 2024-10-19 05:27:58

Linux 高级文本处理命令的相关文章

Linux高级文本处理命令

cut 一.cut命令 功能:cut命令可以从一个文本文件/文本流中提取文本列 语法: cut -d '分割字符' -f fields ##用于有特定分割字符 cut -c 字符区间 ##用于排列整齐的信息 选项与参数: -d:后面接分隔字符.与 -f 一起使用: -f:依据 -d 的分隔字符将一段信息分割成为数段,用 -f 取出第几段的意思 -c:以字符(charaters)的单位取出固定字符区间 sed awk 原文地址:https://www.cnblogs.com/xiaowenshu/

Linux基础文本查看命令之 cat,tac,more,less,head,tail

在使用linux的过程中多多少少都会涉及到文本的操作,因此掌握一些文本操作的工具命令能大大的提高我们的工作效率. cat命令 cat命令的用途是链接文件或标准输入并打印.这个命令常用来显示文件内容,或者将几个文件连接起来显示,或者是从标准输入读取内容并显示,它常与重定向符号配合使用. 1)命令格式 cat    [选项]    [FILENAME] 2)命令功能 将文件或标准输入组合输出到标准输出. 3)命令参数 -E:在每行结束处显示 $ -n:对输出的所有行编号 -s:不输出多行空行 4)常

Linux中 文本处理命令 grep egrep fgrep的使

个人见解:我认为Linux中的文本处理命令 grep egrep fgrep命令 其实只要牢牢掌握grep就可以了 因为其他两个几乎是一样的 不一样的地方也很好区分 grep 基本使用方法: 使用方法 grep [选项] '表达式' #学习的时候没好好听 不知道自己写错没 为了这篇博文的通常 我还是先不看之前学习的视频了这里的常用选项有 -o -v -i -n -A -B -C -数字 -E [email protected]:~# grep -o '^root:' /etc/passwd #-

Linux高级文本处理之sed(一)

sed:Stream Editor文本流编辑,sed是一个"非交互式的"面向字符流的编辑器.能同时处理多个文件多行的内容,可以不对原文件改动,把整个文件输入到屏幕,可以把只匹配到模式的内容输入到屏幕上.还可以对原文件改动,但是不会再屏幕上返回结果. 基本概念 一.sed命令的语法如下所示: sed [options] script filename sed命令的选项(option): -n :只打印模式匹配的行 -e :多脚本运行,多点编辑,例如 -e script1 -e scrip

linux下文本查找命令及正则表达式

马哥说了,学不好正则表达式不是linux的问题,是智商的问题. 下面我们来讨论一下在linux下面怎么查找文本,用什么方法查找文本,用什么命令查找文本,这里我们要用到的两个命令是 grep.egrep和fgrep.首先我们要了解一下什么是grep grep: grep的英文全称是global search REgular expression and print out the line. 意思就是说 全面搜索正则表达式并把行打印出来,全面搜索和把行打印出来我们都懂,正则表达式等会再讲,我们先来

DA_06_高级文本处理命令

Linux中没有盘符这个概念,只有一个根目录"/",所有文件都在它下面:点击计算机,下面存放的都是根目录下的东西: 2.6 文本文件编辑命令 1.cat 命令用于查看纯文本文件(内容较少的:一次性全部显示),格式为"cat [选项] [文件]":如果在查看文本内容时还想顺便显示行号的话,不妨在 cat 命令后面追加一个-n参数:例如:cat -n initial-setup-ks.cfg : 2.more 命令用于查看纯文本文件(内容较多的:分屏显示),格式为&qu

Linux高级文本处理之sed(四)

模式空间是sed内部维护的一个缓存空间,它存放着读入的一行或者多行内容.但是模式空间的一个限制是无法保存模式空间中被处理的行,因此sed又引入了另外一个缓存空间--模式空间(Hold Space). 一.保持空间 保持空间用于保存模式空间的内容,模式空间的内容可以复制到保持空间,同样地保持空间的内容可以复制回模式空间.sed提供了几组命令用来完成复制的工作,其它命令无法匹配也不能修改模式空间的内容. 操作保持空间的命令如下所示: 这几组命令提供了保存.取回以及交换三个动作,交换命令比较容易理解,

Linux高级文本处理之gawk实战(七)

1.取出linux中eth0的IP地址 [[email protected] ~]# ifconfig eth0 |awk -F '[ :]+' 'NR==2 {print $4}' 192.168.1.8 说明: "+"为正则表达式模式匹配至少重复一次. 2.统计文件中所有行单词出现的次数 [[email protected] ~]# awk ' >{for(i=1;i<=NF;i++) >{count[$i]++}} >END{for(j in count)

Linux高级文本处理之gawk内置变量(一)

一.FS –输入字段分隔符 FS是awk内置变量,用来制定行分隔符,功能能-F一样,区别在于FS只能用在BEGIN语句块当中,命令格式如下: BEGIN{FS="SEPARATOR"} 实例1: [[email protected] ~]# awk 'BEGIN { FS=","; print "---------------------------\nName\tTitle\n------------------------"} {print