正则表达式的目的就是匹配字符串,匹配字符串可以是我们简单理解的字符串,例如:"zhangsan"
但这不是正则表达式美丽所在,它是通过对其他字符的特殊转义来达到复杂匹配字串的支持。这里介绍一下它所支持的基本转义符
1 基本正则式
1.1) ^ 表示文本行的开头
eg: "^a" 表示匹配行的第一个字符为"a"的意思
1.2) $ 表示文本行的结尾
eg: "$a" 表示匹配行的结尾前面的一个字符为"a"的意思
1.3) * 表示任意个字符
eg: "^aa*bb$" 表示对存在"aa"开头,"bb"结尾,中间存在任意个字符的文本行进行匹配
1.4) [ ] 这对中括号,主要是提供一种在某一位字符存在多个情况选择的机制
eg: "[bB]ob" 表示匹配存在bob 或者是Bob的字符串
1.5) . 表示任意一个字符,有别与"*",简单点理解就是一个占位符,对于这一个字符上面是什么样的字符没有要求
eg: "aa.bb" 表示由"aa"和"bb",以及在这两个字串之间任意一个的字符组成的字符串。
执行演示:
$: echo "aacbb" | grep "aa.bb"
aacbb
$: echo "aabb" | grep "aa.bb"
$:
2 扩展正则式
扩展的正则表达式和基本的区别在与增加了某些元字符
在grep默认情况下支持基本正则表达式,你可以添加"-E"选项,让其支持对扩展的正则式的支持,当然你也可以使用egrep程序来实现。
2.1) | 表示选择,和基本正则当中"[" ,"]"的目的相同,只不过这个支持的不仅仅是单个字符,可以是字串,而"[]"则只能支持单个字符。
eg:
$: echo "aaa" | grep -E "aaa|bbb"
aaa
$: echo "bbb" | grep -E "aaa|bbb"
bbb
$: echo "ccc" | grep -E "aaa|bbb"
$:
2.2) () 用于将正则式的基本元素结合起来,
针对上面现在要求开头为aaa或者bbb的匹配,echo "aaa" | grep -E "^(aaa|bbb)",如果用echo "aaa" | grep -E "^aaa|bbb"就会出现错误
例如:
$: echo "acbbb" | grep -E "^aaa|bbb"
acbbb
$:
结果不是我们要求的,
3.3){} ? + * 这四个主要提供一种对匹配数目要求的支持,在这之前我们没有什么方法去支持对匹配数量的要求,例如查找"goooooogle",你可以把正则式写成"goooooogle",但是这个太麻烦,也没有拓展性。
? 表示在?之前的这个字符存在一个或者零个,简言之,就是在?之前的这个字符是可有可无的。
eg:
$: echo "abbb" | grep -E "a?bbb"
abbb
$: echo "bbb" | grep -E "a?bbb"
bbb
$:
* 表示前面的字符可以不出现或者一次及以上次数,
例如:
$: echo "abbb" | grep -E "a*bbb"
abbb
$: echo "bbb" | grep -E "a*bbb"
bbb
$: echo "aaaaabbb" | grep -E "a*bbb"
aaaaabbb
$:
+ 表示前面的字符可以出现1次或者连续的多次以上,可以与*进行比较, * 可以理解为>=0 ,而+ 可以理解为>=1;
例如:
$: echo "abbb" | grep -E "a+bbb"
abbb
$: echo "bbb" | grep -E "a+bbb"
$: echo "aaaaaaabbb" | grep -E "a+bbb"
aaaaaaabbb
$:
{m,n}表示前面的字符至少得连续m次,最多为n次,
{m}表示前面的字符得连续m次
{m,}表示前面的字符至少连续m次,或者更多
{,n} 表示前面的字符不能连续的超过n次
例如:d对{,n}这种格式下进行测试:
$: echo "aaaaaaabbb" | grep -E "^a{,4}bbb"
$: echo "aaabbb" | grep -E "^a{,4}bbb"
aaabbb
$: echo "aabbb" | grep -E "^a{,4}bbb"
aabbb
$: echo "abbb" | grep -E "^a{,4}bbb"
abbb
$: echo "bbb" | grep -E "^a{,4}bbb"
bbb
$:
注意这里的{} *,在书写的时候得在""里面,不然shell可能进行括号的扩展,导致结果不是正常想要的。