一、正则表达式:
正则表达式(Regular Expression,简称RE)就是由普通字符(例如字符a到z)以及特殊字符(称为元字符)组成的文字模式。即一种匹配模式
常用正则表达式:
1. .代表任意单个字符,如:/l..e/,le中间可以是任意两个字符。
2. ^:以...开始的行
3. $:以....结束的行 “^$”就表示空行
4. [...]:匹配括号中的字符之一
“^”如果出现在[]的起始位置,表示否定,在其他位置是普通字符。(即匹配不在此括号中的任何字符)比如搜索oo前没有g的字符串的行,应用’[^g]oo’作搜索字符串。
5. *:用于修饰前导字符,表示前导字符出现0或任意多次
如:’a*grep’匹配所有0个或多个a后紧跟grep的行。”.*“表示任意字符串
6.\?或?:前导字符可出现0次或1次
7.”\”:用于转义紧跟其后的单个特殊字符,使该特殊字符成为普通字符
如:^\.[0-9][0-9]以一个句点和两个数字开始
8.\{n,m\}:表示前导字符出现n至m次(n和m都是整数,且n<m)
\{n,\}连续的至少n个前导字符
\{n\}连续的n个前导字符
9.\+:表示前导字符出现1或多次
10.|:表示或 如:a|b|c匹配a或b或c
11.(),将部分内容合成一个单位组,比如要搜索glad或good,可以如下’g(la|oo)d’
二、grep命令用法
grep(global search regular expression(RE)and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
参数:
1.-A NUM,--after-context=NUM 除了列出符合行之外,兵器列出后NUM行
如:[[email protected] ~]# grep -A 2 how test
how are you
when are you from
glad
2.-B NUM,--before-context=NUM 与-A NUM相反,显示除符合行之外并显示在它之前的NUM行,
3.-C [NUM],-NUM,--context[=NUM] 列出符合行之外并列出上下各NUM行,默认值为2.
4.-c,--count 不显示符合样式行,只显示符合的总行数。若再加上-v,--invert-match,参数显示不符合的总行数
5.-i,--ignore-case 忽略大小写差别
6.-n,--line-number 在匹配的行前面打印行号
7.-v,--revert-match 反检索,只显示不匹配的行
8.精确过滤:
\<...\>,”...”为匹配内容
9.-s 不显示不存在或无匹配文本的错误信息
如:执行命令grep "root" /etc/password,因为password文件不存在,所以在屏幕上输出错误信息,若使用grep命令-s开关,可屏蔽错误信息
三、sed命令的用法
sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为”模式空间“(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,知道文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
sed的基本命令:
1.替换:s命令
用法: sed ‘s/day/night/‘ <old >new
day被替换的字符
Night替换字符
/:分隔符
2.用&表示匹配的字符串
Sed默认只替换搜索字符串的第一次出现,利用 /g 可以替换所有搜索字符串
取得eno16777736网卡ip地址:
[[email protected] ~]# ifconfig eno16777736 | grep "\<inet\>" | sed ‘s/netmask.*//g‘
3.删除行:d命令
删除某文件中所有空行:
Sed ’/^$/d’ filename
将/etc/passwd的内容显示并找印行号,同时将2~5删除
4.增加行:a命令(在指定的行后增加)或i命令(在制定的行前增加)
如果要同时新增多行,则每行之间要用反斜杠\来进行新行的添加
5.取代行:c命令
c的后面可以接字符串,这些字符串可以取代n1,n2之间的行
6.打印:p命令
sed -i 选项可直接修改文件中的内容
7.调用sed的方式
a) 在命令行键入命令,格式:sed [选项] sed命令 输入文件
b) 将sed命令插入脚本文件,然后调用sed。 格式:sed [选项] -f sed脚本文件 输入文件
c) 将sed命令插入脚本文件,并使sed脚本可执行。格式:sed脚本文件 [选项] 输入文件
不管是使用shell命令行方式或脚本文件方式,如果没有指定输入文件, sed从标准输入中接受输入,一般是键盘或重定向结果。
四、awk命令:
awk也是一个数据处理工具!相较于sed常常作用于一整行的处理,awk则比较倾向于一行当中分成数个字段来处理。
·
·.awk语言的最基本功能是在文件或字符串中基于指定规则来分解抽取信息,也可以基于指定的规则来输出数据。其实他更像一门编程语言,他可以自定义变量,有条件语句,有循环,有数组,有正则,有函数等。
有三种方式调用awk
1.命令行方式
awk [-F field-separator] ‘commands’ input-files
其中[ -F 域分隔符] 是可选的,因为awk使用空格或tab键作为缺省的域分隔符。
注:在linux系统中用环境变量IFS存储分隔符,但根据实际应用也可以改变IFS的值.
例如:
脚本执行结果如下:
commands 是真正awk命令, input-files 是待处理的文件
2.shell脚本方式(通sed)
将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,以便通过键入脚本名称来调用。
相当于shell脚本首行的:#!/bin/sh可以换成:#!/bin/awk
3.将所有的awk命令插入一个单独文件,然后调用。
Commands=awk的模式和动作
Awk模式和动作
模式:任何条件语句或正则表达式。
实际动作在大括号{ }内指明。动作大多数用来打印
awk的运行过程:
① 如果BEGIN 区块存在,awk执行它指定的actions。
② awk从输入文件中读取一行,称为一条输入记录。(如果输入文件省略,将从标准输入读取)
③ awk将读入的记录分割成字段,将第1个字段放入变量$1中,第2个字段放入$2,以此类推。$0表示整条记录。
④ 把当前输入记录依次与每一个awk_cmd中awk_pattern比较,看是否匹配,如果相匹配,就执行对应的actions。如果不匹配,就跳过对应的actions,直到比较完所有的awk_cmd。
⑤ 当一条输入记录比较了所有的awk_cmd后,awk读取输入的下一行,继续重复步骤③和④,这个过程一直持续,直到awk读取到文件尾。
⑥ 当awk读完所有的输入行后,如果存在END,就执行相应的actions。
awk内置变量
FILENAME awk浏览的文件名
FS 设置输入域分隔符,等价于命令行-F选项
NF 浏览记录的域个数(每一行($0)拥有的字段总数)
NR 已读的记录数(awk所处理的是第几行数据)
五、函数及脚本的综合应用
函数:把要执行的程序代码/脚本封装到一起
函数包括函数名和函数体
定义函数的格式为:
函数名(){
命令1
...
}
例1:删除文件中的空行
这个脚本(脚本名为del.lines)可以处理一个或多个文件。每个文件在用sed删除空行之前要先核实是否存在。
sed的输出被导入一个文件名中含有$ $的临时文件,最后这个临时文件又被移回到原来的文件中。
该脚本使用shift命令取得所有的文件名,用while循环逐个处理所有的文件,直至处理完为止。
注:
1、basename命令能够从路径中分离出文件名。通常用于shell脚本中
2、shift语句用于迁移位置变量,将 $1~$9 依次向左传递
例如,若当前脚本程序获得的位置变量如下:
$1=file1、$2=file2、$3=file3、$4=file4
则执行一次shift命令后,各位置变量为:
$1=file2、$2=file3、$3=file4
再次执行shift命令后,各位置变量为:
$1=file3、$2=file4
例2:如果某些日志文件超过了特定的长度(如8K),那么它的内容将被倒换到另一个文件中,并清除原有文件中的内容.
系统中的有些日志文件增长十分迅速,每天手工检查这些日志文件的长度并倒换这些日志文件(通常是给文件名加个时间戳)是非常乏味的。可以编写一个脚本来自动完成这项工作。该脚本将提交给cron进程来运行,如果某个日志文件超过了特定的长度,那么它的内容将被倒换到另一个文件中,并清除原有文件中的内容。
Ls -l:显示文件实际大小
Du:显示文件所占用的block大小,默认linux系统分区的block size是4K。
仅作为博主学习笔记使用!