正则表达式——字符类、分支条件、分组

思路来源：http://deerchao.net/tutorials/regex/regex.htm#alternative

感谢deerchao，写的比菜鸟教程好太多了。现在感觉菜鸟教程可能就是翻译了一些doc，而且是思路结构不太清晰的doc……

进入正题，主要还是看了教程后自己的理解。

字符类

字符类，即为如 [aeiou]、[1-9]、[19]、[.?!] 等用英文中括号括起字符的字符集合。

解释与辨析：

[aeiou]：匹配a 或 e 或 i 或 o 或 u 。

[0-9]：匹配 0 或 1 或 2 或 3……0-9 中的一个数字。（含义与 \d 完全一致：一位数字）

[09]：匹配 0 或者是 9 。

[.?!]：匹配 . 或？或是！

同理[a-z0-9A-Z_]也基本等同于 \w（匹配非特殊字符，即a-z、A-Z、0-9、下划线、汉字）。

#补充 \W 的意思：匹配特殊字符，即非字母、非数字、非下划线、非汉字。

所以中括号[]就像是划定了一个字符范围一样。接下来是一个复杂的表达式： \(?0\d{2}[) -]?\d{8}。

这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或是02912345678等等。

对它进行分析：首先是\(对左括号的转义，同时加?代表可1可无；然后是一个数字0和\d{2}，代表0和两个数字；往后就是一个字符类范围[) -]?，左括号、空格、hyphen三选一可1可无；最后是\d{8}八个数字。

不幸的是这样的表达式也会匹配到一些错误的电话号码格式，如010)12345678、(022-87654321。

所以引入下一个知识点：分支条件。

分支条件

正则表达式中的分支条件指：我现在有这几种匹配规则，如果对象满足其中任意一种匹配规则就成功。具体方法是用 | 把不同的匹配规则分开。

0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种带有hyphen连接的匹配规则：一种是三位区号，8位本地号(如010-12345678)；一种是4位区号，7位本地号(0376-2233445)。

\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用（两种匹配规则），区号与本地号间可以用hyphen或空格间隔，也可以都不用，但不能都用。我觉得[ -]?可以这样理解：先[ -]二选一，再?对二选一出来的东西其判断0或1。

\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或是用hyphen间隔的9位数字。这个例子能说明一个注意点：使用分支条件时，要注意不同条件之间的顺序。

如果你把上面的表达式改成\d{5}|\d{5}-\d{4}（两规则前后调换）的话，那就只会匹配5位的邮编(以及9位邮编的前5位)。原因是当系统在匹配分支条件中的不同规则时，将会从左到右地测试每个规则。当满足了第一个分支规则的话，就不会再去测试第二个分支规则了。如下图↓所诠释的：

分组

我们已经知道如何重复单个字符（在字符后添加限定符+*？即可）。但如果我们需要重复多个字符该怎么办？故引入概念：分组。

分组就是在多个字符（子表达式）的左右添加小括号，然后加{n}。就指定了这个子表达式的重复次数n了。

(\d{1,3}\.){3}\d{1,3} 是一个简单的IP地址匹配表达式。

分析这个表达式：(){3}代表它是一个重复三次的分组，括号内\d{1,3}\.指一到三位数字加一个point点，合在一起 (\d{1,3}\.){3} 就是匹配三位数字加上一个point点(这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。

如果不在point点前放置转义符号，原point点指匹配除了换行符(\n)之外的任意一个字符。
{m,n}指表达式至少重复m次，最多重复n次，比如："ba{1,3}"可以匹配"ba"或"baa"或"baaa"。

不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组选择。

IP地址中每个数字都不能大于255。同时, 01.02.03.04 这种数字前面带有0的地址，也是正确的IP地址。IP 地址里的数字可以包含“前导 0 (leading zeroes)“。

这个表达式描述了一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?。分析它！

整体结构为带有两个 | 的三分组结构。

首先是 2[0-4]\d：数字2 + 0-4中的一个数字 + 0-9中的一个数字； 200-249

中间是 25[0-5]：数字2 + 数字5 + 0-5中的一个数字； 250-255

最后是[01]?\d\d?：0或1（可1可无） + 一个数字 + 一个数字（可1可无） 0-199

原文地址：https://www.cnblogs.com/hsh17/p/10891910.html

时间： 2024-08-29 10:16:24

正则表达式——字符类、分支条件、分组

正则表达式——字符类、分支条件、分组的相关文章

JavaScript正则表达式-字符类

正则表达式-字符类

正则表达式-字符类减法

Linux正则表达式-排除字符类

JS正则表达式从入门到入土（2）—— 元字符和字符类

正则表达式中的字符类

java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍

常用正则表达式字符说明

正则表达式-字符的范围