正则表达式学习（一）-- 字符匹配

文章首发于[sau交流学习社区](https://www.mwcxs.top/page/585.html)

一、前言

正则表达式是匹配模式，要么匹配字符，要么匹配位置。

正则里面的元字符太多了，没有系统性，可以分为：

（1）字符匹配攻略

（2）位置匹配攻略

二、字符匹配

包括：两种模糊匹配，字符数组，量词，分支结构。

1.1两种模糊匹配

正则精确匹配乜有意义的，比如正则/saucxs/，只能匹配字符串中的"saucxs"这个子串。

var regex = /saucxs/;
console.log(regex.test(‘saucxs‘));    //true
console.log(regex.test(‘123saucxs4560‘));   //true

正则很强大的地方就是，实现模糊匹配。

模糊匹配分为：（1）横向模糊匹配；（2）纵向模糊匹配。

1.1.1横向模糊匹配

横向模糊匹配指的是：一个正则可匹配的字符串的长度不是固定的，可以是很多种情况。

实现方式：使用量词。比如：{m,n}表示的连续出现最少m次，最多n次。

比如正则： /ab{2,5}c/表示匹配这样一个字符串：第一个字符是‘a’，接下来第2个到第5个字符是‘b’，最后是字符‘c’。

正则可视化形式如下：

RegExp：/ab{2,5}c/

测试一下：

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log( string.match(regex) );   // ["abbc", "abbbc", "abbbbc", "abbbbbc"]

正则里的g是正则的一个修饰符，表示全局匹配，即按照顺序找到满足匹配的所有子串。

1.1.2纵向模糊匹配

纵向模糊匹配的是，一个正则匹配的字符串，具体到某一个字符时。

实现的方式：使用字符组。比如[abc]，表示该字符可以是‘a’，‘b’，‘c’中的任何一个。

比如正则/a[123]b/可以匹配到如下三种字符串‘a1b‘，‘a2b‘，‘a3b‘。

可视化过程：

RegExp：/a[123]b/

测试一下

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log( string.match(regex) );    // ["a1b", "a2b", "a3b"]

横向和纵向匹配，能解决很多的正则匹配问题

1.2字符组

字符组只是其中一个字符

比如[abc]，表示匹配一个字符，它可以是‘a‘，‘b‘，‘c‘之一。

1.2.1范围表示法

如果字符组中字符特别多，怎么处理？可以使用范围表示法。

比如[123456abcdefGHIJKLM]，可以写成[1-6a-fG-M]。用连字符 - 来省略和简写。

如果要匹配‘a‘，‘-‘,‘z’这三个字符中任意一个字符，怎么处理？

答：这个时候不能写成[a-z]，因为这个是表示的是小写字母中的任何一个字符。可以写成[-az]或[az-]或[a\-z]。就是说要不放在开头，要不放在结尾，要么转义。

个人觉得用[a\-z]最好，使用\将连字符 - 转义成普通字符。

1.2.2排除字符组

纵向模糊匹配，还有一种情形：某一个字符可以是除了‘a‘，‘b‘，‘c‘之外的任何字符。

这个时候就需要使用排除字符组（反义字符组），比如[^abc]，表示的是一个除‘a‘，‘b‘，‘c‘之外的任意一个字符。

字符组的第一位放^（脱字符），表示求反的意思。

1.2.3常见的简写形式

有了字符组的概念后，一些常见的符号我们就可以理解了，因为都是系统自带的简写形式。

如果要匹配任意字符怎么办？可以使用 [\d\D]、[\w\W]、[\s\S] 和 [^] 中任何的一个。

1.3量词

量词也称为重复，掌握{m,n}的准确含义，只需要记住一些简写形式。

1.3.1简写形式

正则RegExp：/a{1,2}b{3,}c{4}d?e+f*/

1.3.2贪婪匹配与惰性匹配

看个栗子：

var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );  //  ["123", "1234", "12345", "12345"]

正则/\d{2,5}/表示数字连续出现2到5次。会匹配第2位，第3位，第4位，第5位的连续数字。

但是他是贪婪的，会尽可能多的匹配。

还有一种就是懒惰的匹配（尽可能少的匹配）：

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );   // ["12", "12", "34", "12", "34", "12", "34", "56"]

正则/\d{2,5}?/表示，虽然2到5次都行，当2个就够的时候，就不再往下尝试了。

惰性实现：通过在量词后面加个问号就能实现惰性匹配

记忆方式：量词后面加个问号，问一问你知足了吗，你很贪婪吗？

RegExp：/a{1,2}?b{3,}?c{4}?d??e+?f*?/

1.4多选分支

一个模式可以实现横向和纵向模糊匹配，而多选分支可以支持多个子模式任选其一。

具体形式：：(p1|p2|p3)，其中 p1、p2 和 p3 是子模式，用 |（管道符）分隔，表示其中任何之一。

比如：要匹配字符串good和nice，可以使用/good|nice/。

可视化形式如下：

RegExp：/good|nice/

测试如下

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log( string.match(regex) );  // ["good", "nice"]

有个地方需要注意：我用 /good|goodbye/，去匹配 "goodbye" 字符串时，结果是 "good"：

var regex = /good|goodbye/g;
var string = "goodbye";
console.log( string.match(regex) );  // ["good"]

而把正则改成 /goodbye|good/，结果是：

var regex = /goodbye|good/g;
var string = "goodbye";
console.log( string.match(regex) );   // ["goodbye"]

也就是说，分支结构也是惰性的，即当前面的匹配上了，后面的就不再尝试了。

1.5案例分析

匹配字符，无非就是字符组，量词，分支结构的组合使用。

多练习一下：

1.5.1匹配16进制的颜色值

要求匹配：

#ffbbad
#Fc01DF
#FFF
#ffE

分析：

表示一个16进制字符，可以使用字符组[0-99a-fA-F]；

其中字符可以出现3或6次，需要使用量词和分支结构；

使用分支结构，需要注意顺序。

var regex = /#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g;
var string = "#ffbbad #Fc01DF #FFF #ffE";
console.log( string.match(regex) );  // ["#ffbbad", "#Fc01DF", "#FFF", "#ffE"]

可视化形式：

REgExp：/#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g

1.5.2匹配时间

以24小时为例

要求匹配：

23:59
02:07

分析：

一共四位数字，第一位数字可以为[0-2]；

当第1位为‘2‘时，第2位可以是为[0-3]，其他情况，第2位为[0-9]；

第三位数字为[0-5]，第四位为[0-9]。

正则如下：

var regex = /^([01][0-9]|[2][0-3]):[0-5][0-9]$/;
console.log( regex.test("23:59") );   //true
console.log( regex.test("02:07") );   //true
console.log( regex.test("24:00") );    //falseconsole.log( regex.test("24:01") );     //false

注意：正则中使用了^和$，分别表示字符串开头和结尾。

如果要求可以匹配‘7:9‘，也就是说时分前面的‘0‘可以省略。

var regex = /^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/;
console.log( regex.test("23:59") );    // true
console.log( regex.test("02:07") );    //true
console.log( regex.test("7:9") );     //true

可视化形式：

RegExp：/^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/

1.5.3匹配日期

比如要求yyyy-mm-dd格式

要求匹配：

2017-06-10

分析：

年，4位数字即可，可以用[0-9]{4}；

月，共12个月，分为两种："01","02",...,"09"和"10","11","12"，可以用(0[1-9]|1[0-2]);

日，最大31天，可以用(0[1-9]|[12][0-9]|3[01])。

正则如下：

var regex = /^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/;
console.log( regex.test("2017-06-10") );
//true

可视化形式：

RegExp：/^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/

注意：其实并不是很准确的，因为要考虑的还有是否是闰年，2月份特殊情况等情况。

1.5.4匹配id

要求从

<div id="container" class="main"></div>

提取出id="container"

最初想应该是这样的

var regex = /id=".*"/
var string = ‘<div id="container" class="main"></div>‘;
console.log(string.match(regex)[0]);
// id="container" class="main"

可视化形式：

RegExp：/id=".*"/g

因为 . 是通配符，本身就会匹配双引号的，而量词 * 又是贪婪的，当遇到container后面双引号时候，是不会停下来的，会继续匹配，直到遇到最后一个双引号为止。

解决办法：使用惰性匹配

var regex = /id=".*?"/
var string = ‘<div id="container" class="main"></div>‘;
console.log(string.match(regex)[0]);
//  id="container"

其实这样也是有问题的。效率比较低，因为匹配原理会涉及到“回溯”这个概念。可以优化一下：

var regex = /id="[^"]*"/
var string = ‘<div id="container" class="main"></div>‘;
console.log(string.match(regex)[0]);
//  id="container"

原文地址：https://www.cnblogs.com/chengxs/p/10622543.html

时间： 2025-01-02 05:50:59

正则表达式学习（一）-- 字符匹配的相关文章

D21_1.1_正则表达式_单个字符匹配

# ### re.findall 找到所有与正则表达式相匹配的字符串语法: lst = re.findall(正则表达式,字符串) # (1) 预定义字符集 # \d 匹配数字 # \D 匹配非数字 # \w 匹配字母或数字或下划线 (正则函数中,支持中文的匹配) # \W 匹配非字母或数字或下划线 # \s 匹配任意的空白符, 也就是 \n \t \r " " # \S 匹配任意非空白符 # \n 匹配一个换行符 [最好在正则表达式的前面加上r,让转义字符失效,原型化匹配] # \

D21_2.1_正则表达式_多字符匹配

# (1) 量词基本语法 # 1) . 匹配1个除换行外的任意字符 # 2) ? 匹配0个或者1个a # 3) + 匹配1个或者多个a # 4) * 匹配0个或者多个a # 5) {m,n} 匹配m个至n个a,n可以取到 # {m,} 至少m次 # {m} 必须m次 # (2)贪婪模式与非贪婪模式 (若不加?,匹配的时候默认为贪婪模式) 贪婪模式 : 默认向更多次匹配非贪婪模式: 默认向更少次匹配贪婪模式在底层使用的是回溯算法:回溯算法:默认从左向右进行匹配,一直到最后,直到最后再也匹配不到了

正则表达式学习笔记

/*新手的个人见解,勿以标准作量*/ ...待更新米哥跟我说:"正则表达式说白了就是字符匹配." 以下是我学习当中的笔记. 正则表达式(Regular Expression)是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式. 在搜索文本时要匹配的一个或多个字符串.正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配.这就是正则的功能! 正则表达式由:定界符.原子.元字符.模式修改符组成. 定界符:一般用"//&q

【正则表达式】——02单个字符匹配

[前言]本节主要讲述匹配单个字符 1. 匹配纯文本区分大小写匹配纯文本和搜索功能一致 2. 匹配任意字符——“.” .匹配除了换行符以外的任意字符注意: [元字符]特殊符号和字符,即所谓的元字符,给予了正则表达式强大的功能和灵活性, 正则表达式是由字符组成的字符串,这些字符可以是文本字符(真正的文本),也可以是元字符(含有特殊含义的字符) 原文地址:https://www.cnblogs.com/testxiaobai/p/10762173.html

JavaScript正则表达式模式匹配(1)——基本字符匹配

1 var pattern=/g..gle/; //点符号表示匹配除了换行符外的任意字符 2 var str='g78gle'; 3 alert(pattern.test(str)); 4 5 6 var pattern=/go*gle/; //o* ,表示0个或者多个o 7 var str='goooooooooooogle'; 8 alert(pattern.test(str)); 9 10 var pattern=/go+gle/; //o+,表示一个或者多个o 11 var str='g

正则表达式学习（三）

零宽断言地球人,是不是觉得这些术语名称太复杂,太难记了?我也有同感.知道有这么一种东西就行了,它叫什么,随它去吧!人若无名,便可专心练剑:物若无名,便可随意取舍-- 接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言.最好还是拿例子来说明吧: 注:断言用来声明一个应该为真的事实.正则表达式中只有当断言为真时才会继续进行匹配. (?=exp)也叫零宽度正预测先行断言,

正则表达式学习-JavaScript RegExp 对象

W3School 中有关于正则表达式的全面介绍:http://www.w3school.com.cn/jsref/jsref_obj_regexp.asp 1.什么是正则表达式?正则表达式有什么用? 知道正则表达式有什么用,是学习它的最好动力. 正则表达式跟平时用的字符串操作功能函数类似.功能比它强大很多. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过

Python正则表达式学习摘要及资料

摘要在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2,4}? 只匹配 2 个 a. ^表示行的开头,^\d表示必须以数字开头. $表示行的结束,\d$表示必须以数字结束. 你可能注意到了,py也可以匹配'python'-->py;但是加上^py$就变成了整行匹配,就只能匹配'py'了,匹配'python'时,就什么也得不到. 参考表正则表达式特殊序

【转载】正则表达式学习 & ASCII码表

文章原地址: http://www.jb51.net/tools/zhengze.html <正则表达式30分钟入门教程> 其中有几个地方可以有笔记: \s 匹配任意的空白符 \b 匹配单词的开始或结束 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 \S 匹配任意不是空白符的字符 [^aeiou] 匹配除了aeiou这几个字母以外的任意字符捕获(exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>exp) 匹配exp,并捕获文本到名称为na