ECMAScript通过RegExp类型来支持正则表达式.
使用下面类似Perl的语法,就可以创建一个正则表达式.
var expression=/pattern/flags;
其中的模式(pattern)部分可以是任何简单的或复杂的正则表达式,可以包含字符类,限定符,分组,向前查找以及反向引用.
每个正则表达式都可带有一或多个标志(flags),用以标明正则表达式的行为.
正则表达式的匹配模式支持下面3个标志.
g:表示全局(global)模式,即模式将被应用于所有字符串,而非在发现第一个匹配项时立即停止;
i:表示不区分大小写(case-insensitive)模式,即在确定匹配项时忽略模式与字符串的大小写;
m:表示多行(multiline)模式,即在到达一行文本末尾时还会继续查找下一行中是否存在与模式匹配的项.
因此,一个正则表达式就是一个模式与上述3个标志的组合体.不同组合产生不同的结果.
//匹配字符串的所有"at"的实例 var pattern1=/at/g; //匹配第一个"bat"或"cat",不区分大小写 var pattern2=/[bc]at/i; //匹配所有以"at"结尾的3个字符的组合,不区分大小写 var pattern3=/.at/gi;
与其他语言中的正则表达式类似,模式中使用的所有元字符都必须转义.
正则表达式的元字符包括:
( [ { \ ^ $ | ) ? * + . ] }
这些元字符在正则表达式中都有一种或多种多途,因此如果想要匹配字符串的包含的这些字符,就必须对它们进行转义.
//匹配第一个"bat"或"cat",不区分大小写 var pattern1=/[bc]at/i; //匹配第一个"[bc]at/i",不区分大小写 var pattern2=/\[bc\]at/i; //匹配所有以"at"结尾的3个字符的组合,不区分大小写 var pattern3=/.at/gi; //匹配所有".at",不区分大小写 var pattern4=/\.at/gi;
在上面例子中,pattern1匹配第一个"bat”或"cat",不区分大小写.而想要直接匹配"[bc]at”,就要对两个方括号进行转义.对于pattern3,句号表示位于"at”之前的任意一个可以构成匹配项的字符.如果想匹配”.at”,就必须对钟点本身进行转义.
前面举的这些例子都是以字面量形式来定义的正则表达式.另一种创建正则表达式的方式是使用RegExg构造函数,它接收两个参数:一个要匹配的字符串模式,另一个是可选的标志字符串.
可以使用字面量定义的任何表达式,都可以使用构造函数来定义,如下例子:
//匹配第一个"bat"或"cat",不区分大小写 var pattern1=/[bc]at/i; //与pattern1相同,只不过是使用构造函数创建的 var pattern2=new RegExp("[bc]at",i);
这里的patttern1和pattern2是两个完全等价的正则表达式.
要注意的是,传递给RegExp构造函数的两个参数都是字符串(不能把正则表达式字面量传递给RegExp构造函数).
由于RegExp构造函数的模式参数是字符串,因此某些情况下要对字符进行双重转义.
所有元字符都必须双重转义,那些已经转义过的字符也是如此,例如\n(字符\在字符串中通常被转义为\\,而在正则表达式字符串就会变成\\\\).
下表给出一些模式,左边为这些模式的字面量表示,右边为使用RegExp构造函数定义相同模式时使用的字符串.
字面量模式 | 等价的字符串 |
/\[bc\]at/ | “/\\[bc\\]at/” |
/\.at/ | “/\\.at/” |
/name\/age/ | “/name\\/age/” |
/\d.\d{1,2}/ | “/\\d.\\d{1,2}/” |
/\w\\hello\\123/ | “/\\w\\\\hello\\\\123/” |
使用正则表达式字面量和使用RegExp构造函数创建的正则表达式不一样.在ECMASscript 3中,正则表达式字面量始终会共享同一个RegExp实例,而使用构造函数创建的每一个新RegExp实例都是一个新实例.看下面例子
var re=null; i; for(var i=0;i<10;i++){ re=/cat/g; re.test("catastrophe"); } for(var i=0;i<10;i++){ re=new RegExp("cat","g"); re.test("catastrophe"); }
在第一个循环中,即使是循环体中指定的,但实际上只为/cat/创建了一个RegExp实例. 由于实例属性不会重置,所以在循环中再次调用test()方法会失败.这是因为第一次调用test()找到了”cat”,但第二次调用是从索引为3的字符(上一次匹配的末尾)开始的,所以就找不到它了.由于会测试到字符串末尾,所以下一次再调用test()就又从开头开始了.
第二个循环使用RegExp构造函数在每次循环中创建正则表达式.因为每次迭代都会创建一个新的RegExp实例,所以每次调用test()都会返回true.
ECMAScipt 5明确规定,使用正则表达式字面量必须你直接调用RegExp构造函数一样,每次都创建新的RegExp实例.
IE+,FF4+和Chrome都据此做出了修改.
5.4.1 RegExp实例属性
RegExp的每个实例都具有下列属性,通过这些属性可以取得有关模式的各种信息.
global:布尔值,表示是否设置了g标志.
ignoreCase:布尔值,表示是否设置了i标志.
lastIndex:整数,表示开始搜索下一个匹配项的字符位置,从0算起.
multiline:布尔值,表示是否设置了m标志.
source:正则表达式的字符串表示,按照字面量形式而非传入构造函数中的字符串模式返回.
通过这些属性可以获知一个正则表达式的各方面的信息,但却没有多大用处,因为这些信息都包含在模式声明中.例如
var pattern1=/\[bc\]at/i; console.log(pattern1.global);//false console.log(pattern1.ignoreCase);//true console.log(pattern1.multiline);//false console.log(pattern1.lastIndex);//0 console.log(pattern1.source);// \[bc\]at var pattern2=new RegExp("\\[bc\\]at","i"); console.log(pattern2.global);//false console.log(pattern2.ignoreCase);//true console.log(pattern2.multiline);//false console.log(pattern2.lastIndex);//0 console.log(pattern2.source);// \[bc\]at
我们注意到,尽管第一个模式使用是字面量,第二个模式使用了RegExp构造函数,但它们的source属性是相同的.可见,source属性保存的是规范形式的字符串,即字面量形式所用的字符串.
5.4.2 RegExp实例方法
RegExp对象的主要方法是exec(),该方法是专门为捕获组而设计的.
exec()接受一个参数,即要应用模式的字符串,然后返回包含第一个匹配项信息的数组;或者在没有匹配项的情况下返回null.
返回的数组虽然是Array的实例,但包含两个额外的属性:index和input.
其中index表示匹配项在字符串的位置,而input表示应用正则表达式的字符串.
在数组中,第一项是与整个模式匹配的字符串,其他项是与模式中的捕获组匹配的字符串(如果模式中没有捕获组,则该数组只包含一项).
对于exec()方法而言,即使在模式中设置了全局标志(g),它每次也只会返回一个匹配项.
在不设置全局标志的情况下,在同一个字符串上多次调用exec()将始终返回第一个匹配项的信息.
而在设置全局标志的情况下,每次调用exec()则都会在字符串中继续查找新匹配项,如下面例子所示:
var text="cat,bat,sat,fat"; var pattern1=/.at/; var matches=pattern1.exec(text); console.log(matches.index);//0 console.log(matches[0]);//cat console.log(pattern1.lastIndex);//0 matches=pattern1.exec(text); console.log(matches.index);//0 console.log(matches[0]);//cat console.log(pattern1.lastIndex);//0 var pattern2=/.at/g; var matches=pattern2.exec(text); console.log(matches.index);//0 console.log(matches[0]);//cat console.log(pattern2.lastIndex);//3 matches=pattern2.exec(text); console.log(matches.index);//4 console.log(matches[0]);//bat console.log(pattern2.lastIndex);//7
在这个例子中,第一个模式pattern1不是全局模式,因此每次调用exec()返回的都是第一个匹配项("cat").而第二个模式pattern2是全局模式,因此每次调用exec()都会返回字符串中的下一个匹配项,直到搜索到字符串末尾为止.
此外,还要注意模式的lastIndex属性的变化情况. 在全局匹配模式下,lastIndex的值在每次调用exec()后都会增加,而在非全局模式下则始终保持不变.
注意:IE的JavaScript实现在lastIndex属性上存在偏差,即使在非全局模式下,lastIndex属性每次也会变化.
正则表达式的第二个方法是test(),它接受一个字符串参数.在模式与该参数匹配的情况下返回true;否则,返回false.在只想知道目标字符串与某个模式是否匹配,但不需要知道其文本内容的情况下,使用这个方法非常方便.
因此,test()方法经常被用在if语句中,如下面例子所示:
var text="000-00-0000"; var pattern=/\d{3}-\d{2}-\d{4}/; if(pattern.test(text)){ console.log("The pattern was matched."); }
在这个例子中,用正则表达式来测试一个数字序列.如果输入文本与模式匹配,则显示一条消息.
这种用法经常出现在验证用户输入的情况下,因为我们只想知道输入是不是有效,至于它为什么无效就无关紧要了.
RexExp实例继承的toLocaleString()和toString()方法都会返回正则表达式的字面量,与创建正则表达式的方式无关.
例如:
var pattern=new RegExp("\\[bc\\]at","gi"); console.log(pattern.toString());// /\[bc\]at/gi console.log(pattern.toLocaleString());// /\[bc\]at/gi
即使上例中的模式是通过调用RegExp构造函数创建的,但toLocaleString()和toString()方法仍然会像它是以字面量形式创建的一样显示其字符串表示.
注意:正则表达式的valueOf()方法返回正则表达式本身.
5.4.3 RegExp构造函数属性
RegExp构造函数包含一些属性(这些属性在其他语言中被看成是静态属性).这些属性适用于作用域中的所有正则表达式,并且基于所执行的最后一次正则表达式操作而变化.
关于这些属性的另一个独特之处,就是可以通过两种方法来访问它们.
换句话说,这些属性分别有一个长属性名和一个短属性名(Opera是例外,它不支持短属性名)
下表列出了RegExp构造函数的属性.
长属性名 | 短属性名 | 说明 |
input | $_ | 最近一次要匹配的字符串.Opera未实现此属性 |
lastMatch | $& | 最近一次的匹配.Opera未实现此属性 |
lastParen | $+ | 最近一次匹配的捕获组.Opera未实现此属性 |
leftContext | $` | input字符串中lastMatch之前的文本 |
multiline | $* | 布尔值,表示是否所有表达式都使用多行模式.IE和Opera未实现此属性 |
rightContext | $‘ | Input字符串中lastMatch之后的文本 |
使用这些属性可以从exec()或test()执行的操作中提取出更具体的信息.
如下面例子:
var text="this has been a short summer"; var pattern=/(.)hort/g; //注意:Opera不支持input,lastMatch,lastParen和multiline属性 //Internet Rxplorer不支持multiline属性 if(pattern.test(text)){ console.log(RegExp.input);//this has been a short summer console.log(RegExp.leftContext);//this has been a console.log(RegExp.rightContext);//summer console.log(RegExp.lastMatch);//s console.log(RegExp.lastParen);//false console.log(RegExp.multiline); }
以上代码创建了一个模式,匹配任何一个字符后跟hort,而且把第一个字符放在了一个捕获组中.
RegExp构造函数的各个属性返回了下列值:
input属性返回了原始字符串;
leftContext属性返回了单词short之前的字符串,而rightContext属性则返回了short之后的字符串
lastMatch属性返回最近一次与整个正则表达式匹配的字符串,即short;
lastParen属性返回最近一次匹配的捕获组,即例子中的s.
如前所述,例子使用的长属性名都可以用相应的短属性名来代替.只不过,由于这些短属性名大都不是有效的ECMAScript标识符,因此必须通过方括号语法来访问它们,如下所示.
var text="this has been a short summer"; var pattern=/(.)hort/g; //注意:Opera不支持input,lastMatch,lastParen和multiline属性 //Internet Rxplorer不支持multiline属性 if(pattern.test(text)){ console.log(RegExp.$_);//this has been a short summer console.log(RegExp["$`"]);//this has been a console.log(RegExp["$‘"]);//summer console.log(RegExp["$&"]);//short console.log(RegExp["$+"]);//s console.log(RegExp["$*"]);//false
除了上面介绍的几个属性之外,还有多达9个用于存储捕获组的构造函数属性.访问这些属性的语法是RegExp.$1,RegExp.$2……RegExp.$9,分别用于存储第一,第二...第九个匹配的捕获组.在调用exec()和test()方法时,这些属性会被自动填充.
然后就可以像下面来使用它们:
var test="this has a short summer"; var pattern=/(..)or(.)/g; if(pattern.test(text)){ console.log(RegExp.$1);//sh console.log(RegExp.$2);//t }
这里创建了一个包含两个捕获组的模式,并用该模式测试了一个字符串.即使即使test()方法只返回一个布尔值,但RegExp构造的函数的属性$1和$2也会被匹配相应捕获组的字符串自填充.
5.4.4 模式的局限性
尽管ECMAScript中的正则表达式功能还是比较完备的,但仍然缺少某些语言(特别是Perl)所支持的高级正则表达式特性.
下面列出了ECMAScript正则表达式不支持的特性:
匹配字符串开始和结尾的\A和\Z锚;(但支持以插入符号^和美元符号$来匹配字符串的开始和结尾)
向后查找(lookbehind);(但完全支持向前查找lookhead)
并集和交集类;
原子组(atomic grouping);
Unicode支持(单个字符除外,如\uFFFF);
命名的捕获组;(但支持编号的捕获组)
s(single,单行)和x(free-spacing,无间隔)匹配模式;
条件匹配;
正则表达式注释;
即使存在这些限制,ECMAScript正则表达式仍然是非常强大的,能够帮我们完成绝大多数模式匹配任务.