JS基础知识回顾:引用类型(三)

ECMAScript通过RegExp类型来支持正则表达式。

使用类似Perl的语法就可以创建一个正则表达式:var expression=/pattern/flags;

其中模式(pattern)部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。

每个正则表达式都可以带有一个或多个标志(flags),用以标注正则表达式的行为。

正则表达式的匹配模式只是下列三个标志:

g:表示全局(global)模式,即模式将被应用于所有字符串,而非在发现第一个匹配项时立即停止

i:表示不区分大小写(case-insensitive)模式,即在确定匹配项时忽略模式与字符串的大小写

m:表示多行(multiline)模式,即在到达一行文本末尾时还会继续查找下一行中是否存在与模式匹配的项

一个正则表达式就是一个模式与上述三种标志的组合体,不同组合产生不同结果:

var pattern1=/at/g;//匹配字符串中所有"at"的实例

var pattern2=/[bc]at/i;//匹配第一个"bat"或"cat",不区分大小写

var pattern3=/.at/gi;//匹配所有以"at"结尾的三个字符的组合,不区分大小写

与其他语言中的正则表达式类似,模式中使用的所有元字符都必须转义,正则表达式中的元字符包括:(){}[]\^?$|*+.

var pattern1=/[bc]at/i;//匹配第一个"bat"或"cat",不区分大小写

var pattern2=/\[bc\]at/i;//直接匹配第一个"[bc]at",不区分大小写

另一种创建正则表达式的方式是使用RegExp构造函数,它接收两个参数:一个是要匹配的字符串模式,另一个是可选的标志字符串。

var pattern1=/[bc]at/i;

var pattern2=new RegExp("[bc]at","i");

此处的pattern1和pattern2是两个完全等价的正则表达式。

要注意的是,传递给RegExp构造函数的两个参数都是字符串(不能把正则表达式字面量传递给RegExp构造函数)。

由于RegExp构造函数的模式参数是字符串,所以在某些情况下要对字符进行双重转义(所有元字符都必须经过双重转义,那些已经转义过的字符也是如此)。

/\[bc\]at/=="\\[bc\\]at"

/\.at/=="\\.at"

/name\/age/=="name\\/age"

/\d.\d{1,2}/=="\\d.\\d{1,2}"

/\w\\hello\\123/=="\\w\\\\hello\\\\123"

使用正则表达式字面量和使用RegExp构造函数创建的正则表达式并不一样。

在ECMAScript3中,正则表达式字面量始终会共享同一个RegExp实例,而使用构造函数创建的每一个新的RegExp实例都是一个新实例。

var re=null,i;

for(i=0;i<10;i++){re=/cat/g;re.test("catastrophe");}

for(i=0;i<10;i++){re=new RegExp("cat","g");re.test("catastrophe");}

在第一个循环中,即使是循环体中指定的,但实际上只为/cat/创建一个RegExp实例,由于实例属性不会重置,所以在循环中再次调用test()方法会失败。

在第二个循环中,使用RegExp构造函数在每次循环中创建正则表达式,因为每次迭代都会创建一个新的RegExp实例,所以每次调用test()方法都会返回true。

ECMAScript5明确规定,使用正则表达式字面量必须像直接调用RegExp构造函数一样,每次都创建新的RegExp实例,其中IE9+、Firefox4+、Chrome都据此做出了修改。

RegExp的每个实例都有以下属性,通过这些属性可以取得有关模式的各种信息:

global:布尔值,表示是否设置了g标志

ignoreCase:布尔值,表示是否设置了i标志

multiline:布尔值,表示是否设置了m标志

lastIndex:整数,表示开始搜索下一个匹配项的字符位置,从0算起

source:正则表达式的字符串表示,按照字面量形式而非传入构造函数中的字符串模式返回

通过这些属性可以获得一个正则表达式的各方面信息,但是却并没有什么实际用处,因为这些信息全都包含在模式声明中。

var pattern1=/\[bc\]at/i;

alert(pattern1.global);//false

alert(pattern1.ignoreCase);//true

alert(pattern1.multiline);//false

alert(pattern1.lastIndex);//0

alert(pattern1.source);//"/\[bc\]at"

var pattern2=new RegExp("/\\[bc\\]at","i");

alert(pattern2.global);//false

alert(pattern2.ignoreCase);//true

alert(pattern2.multiline);//false

alert(pattern2.lastIndex);//0

alert(pattern2.source);//"/\[bc\]at"

source属性保存的是规范形式的字符串,即字面量所用的字符串,所以即便声明模式不同,两种声明的source属性值却相同。

RegExp对象的主要方法是exec(),该方法是专门为捕获组而设计的。

exec()接受一个参数,即要应用模式的字符串,然后返回包含第一个匹配项信息的数组,或者在没有匹配项的情况下返回null。

返回的数组虽然是Array的实例,但包含两个额外的属性:index和input。

其中,index表示匹配项在字符串中的位置,而input表示应用正则表达式的字符串。

在数组当中,第一项是与整个模式匹配的字符串,其他项是与模式中的捕获组匹配的字符串。

var text="mom and dad and baby";

var pattern=/mom( and dad( and baby)?)?/gi;

//该实例包含两个捕获组,最内部的捕获组匹配"and baby",而包含它的捕获组匹配"and dad"或者"and dad and baby"

var matches=pattern.exec(text);

alert(matches.index);//0,由于该字符串本身与模式匹配,所以返回的index是0

alert(matches.input);//"mom and dad and baby"

alert(matches[0]);//"mom and dad and baby",第一项是匹配的整个字符串

alert(matches[1]);//" and dad and baby",第二项是第一个捕获组匹配的内容

alert(matches[2]);//" and baby",第三项是第二个捕获组匹配的内容

对于exec()方法而言,即使在模式中设置了全局标志(g),它每次也只会返回一个匹配项。

在不设置全局标志的情况下,在同一个字符串上多次调用exec()将始终返回第一个匹配项的信息。

在设置了全局标志的情况下,每次调用exec()则都会在字符串中继续查找新匹配项。

var text="cat,bat,sat,fat";

var pattern1=/.at/;

var matches=pattern1.exec(text);

alert(matches.index);//0

alert(matches[0]);//cat

alert(matches.lastIndex);//0,非全局模式下一次查找仍从0开始

matches=pattern1.exec(text);

alert(matches.index);//0

alert(matches[0]);//cat,非全局模式每次调用都会返回第一个匹配项

alert(matches.lastIndex);//0,IE在实现此属性上存在错误,在非全局模式下它的值也每次都会变化

var pattern2=/.at/g;

var matches=pattern2.exec(text);

alert(matches.index);//0

alert(matches[0]);//cat

alert(matches.lastIndex);//3,全局模式下一次查找从此次返回结果的序号后开始

matches=pattern2.exec(text);

alert(matches.index);//5

alert(matches[0]);//bat

alert(matches.lastIndex);//8,下一次查找继续从此次返回结果的序号后开始

正则表达式的第二个方法是test(),它接受一个字符串参数。

在模式与该参数匹配的情况下返回true,否则返回false。

var text="000-00-0000";

var pattern=/\d{3}-\d{2}-\d{4}/;

if(pattern.test(text)){alert("The pattern was matched.");}

这种方法常出现在验证用户输入的情况下,因为我们只想知道输入是否有效。

RegExp实例继承的toLocaleString()和toString()方法都会返回正则表达式的字面量,与创建正则表达式的方式无关。

var pattern=new RegExp("\\[bc\\]at","gi");

alert(pattern.toString());// /\[bc\]at/gi

alert(pattern.toLocaleString());// /\[bc\]at/gi

正则表达式的valueOf()方法会返回正则表达式本身。

RegExp构造函数包含一些属性,这些属性适用于域中的所有正则表达式,并且基于所执行的最近一次正则表达式操作而变化。

这些属性的另一个独特之处在于可以分别通过长属性名和短属性名来访问它们,不过Opera不支持短属性名。

input($_),最近一次要匹配的字符串,Opera未实现此属性

lastMatch($&),最近一次的匹配项,Opera未实现此属性

leftContext($`),input字符串中lastMatch之前的文本

rightContext($‘),input字符串中lastMatch之后的文本

lastParen($+),最近一次匹配的捕获组,Opera未实现此属性

multiline($*),布尔值,表示是否所有表达式都使用多行模式,IE和Opera未实现此属性

使用这些属性可以从exec()和test()执行的操作中提取出更具体的信息。

var text="this has been a short summer";

var pattern=/(.)hort/g;

//创建了一个模式,匹配任何一个字符后跟hort并把第一个字符放在一个捕获组中

if(pattern.test(text)){

alert(RegExp.input);//this has been a short summer

alert(RegExp.leftContext);//this has been a

alert(RegExp.rightContext);//summer

alert(RegExp.lastMatch);//short

alert(RegExp.lastParen);//s

alert(RegExp.multiline);//false}

以上长属性名都可以用相应的短属性名来代替,不过有些短属性名不是有效的ECMAScript标识符,因此必须通过方括号来访问它们。

例如:RegExp.$_;RegExp["$`"];RegExp["$‘"];RegExp["$&"];RegExp["$+"];RegExp["$*"];

除了上述几个属性以外,还有9个用于存储捕获组的构造函数属性。

访问这些属性的语法是RegExp.$1、RegExp.$2……RegExp.$9,分别用于存储第一、第二、……第九个匹配的捕获组。

在调用exec()或test()方法时,这些属性会被自动填充。

var text="this has been a short summer";

var pattern=/(..)or(.)/g;

if(pattern.text(text)){

alert(RegExp.$1);//sh

alert(RegExp.$2);//t}

这里创建了一个包含两个捕获组的模式,并用该模式测试了一个字符串。

即使test()方法只返回一个布尔值,但RegExp构造函数的$1和$2属性页会被匹配相应捕获组的字符串填充。

尽管ECMAScript中的正则表达式功能还是比较完备的,但仍然缺少某些语言所支持的高级正则表达式特性。

下面列出ECMAScript正则表达式不支持的特性:匹配字符串开始和结尾的\A和\Z锚;向后查找;并集和交集类;原子组;Unicode支持;命名的捕获组;s(single,单行)和x(free-spacing,无间隔)匹配模式;条件匹配;正则表达式注释。

JS基础知识回顾:引用类型(三)

时间: 2024-10-10 14:44:07

JS基础知识回顾:引用类型(三)的相关文章

JS基础知识回顾:引用类型(一)

在ECMAScript中引用类型是一种数据结构,用于将数据和功能组织在一起,而对象时引用类型的一个实例. 尽管ECMAScript从技术上讲是一门面向对象的语言,但它不具备传统的面向对象语言所支持的类和接口等基本结构,所以虽然说引用类型与类看起来想死,但他们并不是相同的概念. 不过引用类型有的时候也可以被称为对象定义,因为他们描述的是一类对象所具有的属性和方法. 新对象是使用new操作符后跟一个构造函数来实现的,构造函数本身就是一个函数,只不过该函数时处于创建新对象的目的而定义的. ECMASc

JS基础知识回顾:引用类型(四)

每个函数都是Function类型的实例,而且都与其他引用类型一样具有属性和方法. 由于函数是对象,因此函数名实际上也是一个指向函数对象的指针,不会与某个函数绑定. 函数的声明有以下三种形式: function sum(num1,num2){return num1+num2;}//利用函数声明语法定义 var sum=function(num1,num2){return num1+num2;}//利用函数表达式定义 var sum=new Function("num1","nu

JS基础知识回顾:引用类型(二)

ECMAScript中的Date类型是在早期Java中的java.util.Date类基础上构建的. 因此,Date类型使用自UTC(Coordinated Universal Time,国际协调时间)1970年1月1日午夜零点开始经过的毫秒数来保存日期. 在使用这种数据存储格式的条件下,Date类型保存的日期能够精确到1970年1月1日或之后的285616年. 要创建一个日期对象,使用new操作符和Date构造函数即可:var now=new Date(); 在调用Date构造函数而不传递参数

JS基础知识回顾:ECMAScript的语法(三)

ECMA-262描述了一组用于操作数据值的操作符,包括算术操作符.位操作符.关系操作符和相等操作符. ECMAScript操作符的与众不同之处在于,他们能够适用于很多值,例如字符串.数字值.布尔值.甚至是对象. 在将这些操作符应用于对象时,相应的操作符通常都会调用对象的valueOf()和(或)toString()方法,以便取得可以操作的值. 只能操作一个值的操作符叫做一元操作符. 递增和递减操作符直接借鉴自C,各有前置型和后置型两个版本:a++.++a.a--.--a 这四种操作符不仅适用于整

JS基础知识回顾:引用类型(六)

ECMA-262对内置对象的定义是:由ECMAScript实现提供的.不依赖于宿主环境的对象,这些对象在ECMAScript程序执行之前就已经存在了. 开发人员不必显式的实例化内置对象,因为他们已经实例化了. 前面我们已经介绍了大多数内置对象,如Object.Array.String,ECMA-262还定义了两个单体内置对象:Global和Math. Global对象可以说是ECMAScript中最特别的一个对象了,因为不管你从什么角度上看,这个对象都是不存在的. 实际上并没有全局变量或全局属性

JS基础知识回顾:ECMAScript的语法(一)

任何语言的核心都必然会描述这门语言最基本的工作原理,而描述的内容通常都要涉及这门语言的语法.操作符.数据类型.内置功能等用于构建复杂解决方案的基本概念. ECMAScript中的一切变量.函数名.操作符都区分大小写. ECMAScript的标识符要符合下列规则:第一个字符必须是字母.下划线或美元符号:其他字符可以是字母.下划线.美元符号或数字. 标识符中的字母也可以包含扩展的ASCII或Unicode字母字符,但是并不推荐. 按照惯例,ECMAScript标识符采用驼峰大小写的格式来书写,尽管没

JS基础知识回顾:变量、作用域和内存问题

ECMAScript变量可能包含两种不同数据类型的值:基本类型值和引用类型值. 基本类型值指的是简单的数据段,而引用类型值指的是那些可能由多个值构成的对象. 引用类型的值是保存在内存中的对象,与其他语言不同,JavaScript不允许直接访问内存中的位置,也就是说不能直接操作对象的内存空间. 在操作对象时,实际上是在操作对象的引用而不是实际的对象. 在很多语言中,字符串以对象的形式来表示,因此被认为是引用类型的,ECMAScript放弃了这一传统. 定义基本类型值和引用类型值的方式是类似的:创建

JS基础知识回顾:ECMAScript的语法(二)

ECMAScript中有五种简单数据类型(也称为基本数据类型):Undefined.Null.Boolean.Number.String ECMAScript还有一种复杂数据类型——Object,Object本质上是由一组无序的名值对组成的. ECMAScript不支持任何创建自定义类型的机制,而所有值最终都将是上述六种数据类型之一,由于ECMAScript的数据类型具有动态性,因此的确没有再定义其他数据类型的必要了. 监狱ECMAScript是松散类型的,因此需要有一种手段来检测给定变量的数据

JS基础知识回顾:在HTML中使用JavaScript

想HTML页面中插入JavaScript的主要方法就是使用<script>元素. HTML4.01当中为<script>元素定义了下列6个属性: language(已废弃):原来用于表示编写代码使用的脚本语言,如JavaScript.JavaScript1.2.VBScript等,由于大多数浏览器会忽略此属性,因此就没有必要再用了: type(可选):可以看成是language的替代属性,表示编写代码使用的脚本语言的内容类型,也被称作MIME类型,在未指定此属性的情况下会被默认为t