诱人的正则表达式

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。——维基百科

正则表达式是计算机智能的一种体现，她能让我们在繁杂的计算机文本之中找到我们最想要的东西，在她那规则而又朦胧的面纱之下是一张优雅而又调皮的面孔，对于初入Linux大门的男人来说，无不拜倒在她的石榴裙下，而本文所要做的就是如何俘获她的芳心。

一、了解她的身世

　　在1956 年,美国的一位名叫Stephen Kleene的数学科学家，他在Warren McCulloch和Walter Pitts早期工作的基础之上，发表了一篇题目是《神经网事件的表示法》的论文，利用称之为正则集合的数学符号来描述此模型，引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式，因而采用了“正则表达式”这个术语。之后一段时间，人们发现可以将这一工作成果应用于其他方面。Ken Thompson就把这一成果应用于计算搜索算法的一些早期研究，Ken Thompson是 Unix的主要发明人，也就是大名鼎鼎的Unix之父。Unix之父将此符号系统引入编辑器QED，然后是Unix上的编辑器ed，并最终引入grep。近二十年来，在WINDOW的阵营下，正则表达式的思想和应用在大部分 Windows 开发者工具包中得到支持和嵌入应用！目前主流的开发语言（PHP、C#、Java、C++、VB、Javascript、Ruby以及python等）、数以亿万计的各种应用软件中，都可以看到正则表达式优美的舞姿。

二、揭开她的面纱

好了，继上次inode之后我们又遇到了一个让人无从下手的东西，但是不管怎么说我们还得学她，所以先来看看正则表达式都有些什么吧：

基本正则表达式元字符：

字符匹配：

. :匹配任意单个字符

[]: 匹配指定范围内的任意单个字符

[^]: 匹配指定范围外的任意单个字符

[0-9], [[:digit:]], [^0-9], [^[:digit:]]

[a-z], [[:lower:]]

[A-Z], [[:upper:]]

[[:space:]]

[[:punct:]]

[0-9a-zA-Z], [[:alnum:]]

[a-zA-Z], [[:alpha:]]

次数匹配：在期望匹配字符后面提供一个控制符，用于表达匹配其前面字符指定的次数

* : 任意长度，表示0次、1次或多次；

.*: 任意长度的任意字符

工作于贪婪模式

\?：0次或1次；表示其左侧字符可有可无

\+: 1次或多次；表示其左侧字符至少出现1次；

\{m\}：m次；表示其左侧字符精确出现m次；

\{m,n\}：至少m次，至多n次；

\{0,n\}：至多n次；

\{m,\}：至少m次；

位置锚定：

^: 锚定行首

$: 锚定行尾

^$: 匹配空白行；

单词锚定：由非特殊字符组成的连续的字符串

\< :锚定词首，也可用\b

\> ：锚定词尾，也可以用\b

\<PATTERN\>：匹配PATTERN能匹配到的整个单词

分组：

\1,\2...\n：用于表示引用前面分组的内容

扩展的正则表达式：

字符匹配：

[]

[^]

次数匹配：

*: 任意次

?：0或1次

+: 至少1次

{m}：精确匹配m次；

{m,n}：至少m次，至多次；

{m,}：至少m次；

{0,n}：至多次；

位置锚定：

\<, \b

\>, \b

分组：

()

引用：\1, \2, ...

或者：

a|b：a或者b

或者两侧的所有内容；

三、强吻她

额，我知道走到这一步可能有点出乎大家的意料，不过要知道强吻一个女孩儿是最快得到答复的一种方式，不是吗？OK，想要强吻我们就需要手、嘴并用，好了来看看我们能用的手和嘴都有哪些吧。我们在了解女神身世的时候知道我们的Unix之父引入了grep，在Unix的grep家族中包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展，支持更多的元字符，fgrep就是把所有的字母都看作单词，也就是说，正则表达式中的元字符表示回其自身的字面意义，不再特殊。

好了，我们的手嘴已经就绪开始行动吧：

我们循序渐进先来个简单动作-->查找/proc/meminfo中以s|S开头的行