C#正则表达式语法规则详解

正则表达式通常包含字母文本(Literaltext)和元字符(metacharacter)
字母文本指的是普通文本如"abcde"可匹配字符串中任何包含"abcde"的字符串。

元字符则更加灵活运用通用的表达式匹配所有符合此表达式规律的字符串。
C#正则表达式语法一、

匹配单个字符 []——从中选择一个字符匹配

中间支持的类型:单词字符([ae])、非单词字符([!?,;@#$*])、字母范围([A-Z])、数字范围([0])

eg.正则表达式[ae]ffect
可匹配字符串 affect,effect

(此例中"[ae]"为元字符,"ffect"为字母文本)

注意:
1.要在字符类中匹配连字符,那么把连字符号作为第一个字符列出即可。

2.可以在单个正则表达式中包含多个字符类。

eg.[01][0-9]:[0-5][0-9][ap]m可以用来匹配如12:59pm格式的所有时间

^——排除某些字符(在[]中表此意,还可表示字符串的开头)

eg.正则表达式m[^a]t
可匹配字符串
不可匹配字符串 met,mit,m&t……mat

C#正则表达式语法

二、匹配特殊字符

可以使用的特殊字符:

\t——匹配制表符
\r——匹配硬回车符
\f——匹配换页符
\n——匹配换行符

描述表示字符类的元字符:

.——匹配任何除了\n以外的字符(或者在单行模式中的任何字符)
\w——匹配任何单词字符(任何字母或数字)
\W——匹配任何非单词字符(除了字母和数字以外的任何字符)
\s——匹配任何空白字符(包括空格、换行、制表符等)
\S——匹配任何非空白字符(除了空格、换行、制表符等的任何字符)
\d——匹配任何数字字符(0~9的数字)
\D——匹配任何非数字字符(除了0~9以外的任何字符)

表示字符串中字符位置:
^——匹配字符串的开头(或者多行模式下行的开头)。
$——匹配字符串的结尾,或者是字符串结尾“\n”之前的最后一个字符,或者是多行模式中的行结尾。
\A——匹配字符串的开头(忽略多行模式)
\Z——匹配字符串的结尾或字符串结尾“\n”之前的最后一个字符(忽略多行模式)。
\z——匹配字符串的结尾。
\G——匹配当前搜索开始的位置。
\b——匹配单词的边界。
\B——匹配单词的非边界。

注意:

1.句点字符(.)特别有用。可以用它来表示任何一个字符。

eg.正则表达式01.17.84
可匹配字符串 01/17/84,01-17-84,011784,01.17.84

2.可以使用\b匹配单词的边界

eg.正则表达式
可匹配字符串 \blet\blet
不可匹配字符串letter,hamlet

3.\A和\z在确保字符串所包含的是某个表达式,而不是其他内容时很用。

eg.要判断Text控件是否包含单词"sophia",而不含任何额外的字符、换行符或者空白。

\Asophia\z

4.句点字符(.)具有特殊的含义,若要表示字母字符本身的含义,在前面加一个反斜杠:\.

C#正则表达式语法三、
匹配二选一的字符序列

|——匹配二选一

eg.正则表达式col(o|ou)r
可匹配字符串 color,colour

注意:\b(bill|ted)和\bbill|ted是不同的。

后者还可以匹配"malted"因为\b元字符只应用于"bill"。

C#正则表达式语法四、
用量词匹配 *——匹配0次或多次 +——匹配1次或多次 ?——匹配0次或1次 {n}——恰好匹配n次 {n,}——至少匹配n次 {n,m}——至少匹配n次,
但不多于m次
eg.正则表达式brothers?
可匹配字符串 brother,brothers

eg.正则表达式\bp\d{3,5}
可匹配字符串 \b以p开头,且后跟3~5个数字结尾

注意:也可以把量词与()一起使用,以便把该量词应用到整个字母序列。

eg.正则表达式(The)?schoolisbeautiful.
可匹配字符串 schoolisbeautiful,Theschoolisbeautiful.

C#正则表达式语法五、
识别正则表达式和贪婪 有些量词是贪婪的(greedy).他们会尽可能多的匹配字符。

如量词*匹配0个或多个字符。假设要匹配字符串中任何HTML标签。你可能会用如下正则表达式:

<.*>

现有字符串A<i>quantifier</i>canbe<big>greedy</big>

结果<.*>把<i>quantifier</i>canbe<big>greedy</big>都匹配上了。

要解决该问题,需要与量词一起使用一个特殊的非贪婪字符“?”,因此表达式变化如下:

<.*?>

这样就可以正确匹配<i>、</i>、<big>、</big>。

?能强制量词尽可能少地匹配字符,?还可以用在以下几个量词中:

*?——非贪婪的量词* +?——非贪婪的量词+ ??——非贪婪的量词? {n}?——非贪婪的量词{n} {n,}?——非贪婪的量词
{n,} {n,m}?——非贪婪的量词{n,m}
C#正则表达式语法六、
捕获和反向引用 捕获组(capturegroup)就像是正则表达式中的变量。
捕获组可以捕获正则表达式中的字符模式,并且由正则表达式后面的编号或名称来引用改模式。

()——用来捕获其中的字符串

\数字——用编号来引用

eg.

正则表达式 (\w)(\w)\2\1
可匹配字符串abba

注意:
1.反向引用用来匹配html标签非常有效如<(\w+)></\1>可以匹配<table></table>等类似格式的标签。

2.默认情况下,只要使用圆括号,就会捕获圆括号内所包含的字符,可以使用n选项来禁用这个默认行为(在第7条里会详细介绍),
或者添加?:到圆括号中。eg.(?:sophia)或(?n:sophia)此时不会捕获sophia。

(?<捕获组名称>)\k<捕获组名称>——用名称来引用

eg.

正则表达式(?<sophia>\w)abc\k<sophia>
可匹配字符串 xabcx

注意:在替换模式中使用捕获组的格式略有不同,要用$1、$2等来按数值引用捕获,用${sophia}等名称来按名称引用捕获组

C#正则表达式语法七、
设置正则表达式的选项

eg.

stringstr="<h4>sophia</h4>"

RegExobjRegEx=newRegEx("<h(d)>(.*?)</h1>");
Response.Write(objRegEx.Replace(str,"<fontsize=$1>$2</font>"));

i——所执行的匹配是不区分大小写的(.net中的属性为IgnoreCase) m——指定多行模式(.net中的属性为Multiline)
n——只捕获显示命名或编号的组(.net中的属性为ExplicitCapture) c——编译正则表达式,这样会产生较快的执行速度,但启动会变慢(.net中的属性为Compiled)
s——指定单行模式(.net中的属性为SingleLine) x——消除非转义空白字符和注释(.net中的属性为IgnorePatternWhitespace)
r——搜索从右到左进行(.net中的属性为RightToLeft) -——表示禁用。
eg.(?im-r:sophia)允许不区分大小写匹配sophia,使用多行模式,但禁用了从右到左的匹配。

注意:
1.m会影响如何解析起始元字符(^)和结束元字符($)。
在默认情况^和$只匹配整个字符串的开头,即使字符串包含多行文本。如果启用了m,那么它们就可以匹配每行文本的开头和结尾。

2.s会影响如何解析句点元字符(.)。通常一个句点能匹配除了换行符以外的所有字符。但在单行模式下,句点也能匹配一个换行符。

时间: 2024-10-21 02:40:56

C#正则表达式语法规则详解的相关文章

JSON 语法规则详解

JSON 的语法规则十分简单,无论用何种方法总结都只有数条而已,它参考了 C 语言家族的一些习惯,学习起来并不会感到陌生. 回顾JSON 的五点语法 1)- 数组(Array)用方括号("[]")表示. 2)- 对象(Object)用大括号("{}")表示. 3)- 名称/值对(name/value)之间用冒号(":")隔开. 4)- 名称(name)置于双引号中,值(value)有字符串.数值.布尔值.null.对象和数组. 5)- 并列的数据

Nginx之location 匹配规则详解

Nginx之location 匹配规则详解 关于一些对location认识的误区 1. location 的匹配顺序是"先匹配正则,再匹配普通". 矫正: location 的匹配顺序其实是"先匹配普通,再匹配正则".我这么说,大家一定会反驳我,因为按"先匹配普通,再匹配正则"解释不了大家平时习惯的按"先匹配正则,再匹配普通"的实践经验.这里我只能暂时解释下,造成这种误解的原因是:正则匹配会覆盖普通匹配(实际的规则,比这复杂,

php正则表达式以及正则函数详解

php正则表达式以及正则函数详解 发布时间: 2012-03-21 浏览次数:21493 分类: PHP教程 正则表达式是php中一个非常重要的知识点,通常用来查找和替换字符串,最常用的就是验证用户输入的信息格式是否正确,如邮件格式.电话格式等等.还有比如采集器之类的软件中,正则也是必用不可! 现在开始来学习正则表达式的基本语法: 1.“/”是定界符,“/”定界符之间的部分就是将要在目标对象中进行匹配的模式.同时为了正则更加灵活,引入了元字符,即“+”, “*”,以及 “?”. (1)“+”元字

[转]notepad++正则表达式替换字符串详解

原文:http://blog.csdn.net/qinboecjtu/article/details/6035028 正则表达式是一个查询的字符串,它包含一般的字符和一些特殊的字符,特殊字符可以扩展查找字符串的能力,正则表达式在查找和替换字符串的作用不可忽视,它 能很好提高工作效率. EditPlus的查找,替换,文件中查找支持以下的正则表达式: 表达式 说明 /t 制表符. /n 新行. . 匹配任意字符. | 匹配表达式左边和右边的字符. 例如, "ab|bc" 匹配 "

基础正则表达式和fgrep详解

[grep/ egrep] 语法: grep [-cinvABC] 'word'filename -c :打印符合要求的行数 -i :忽略大小写 -n :在输出符合要求的行的同时连同行号一起输出 -v :打印不符合要求的行 -A :后跟一个数字(有无空格都可以),例如 –A2则表示打印符合要求的行以及下面两行 -B :后跟一个数字,例如 –B2 则表示打印符合要求的行以及上面两行 -C :后跟一个数字,例如 –C2 则表示打印符合要求的行以及上下各两行 #grep -A 2 halt /etc/

53个Oracle语句优化规则详解(转)

Oracle sql 性能优化调整  1. 选用适合的ORACLE优化器        ORACLE的优化器共有3种:a. RULE (基于规则)   b. COST (基于成本) c. CHOOSE (选择性)    设置缺省的优化器,可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明,如RULE,COST,CHOOSE,ALL_ROWS,FIRST_ROWS . 你当然也在SQL句级或是会话(session)级对其进行覆盖.    为了使用基于成本的优化器(CBO,

Atitit.jdk&#160;java8的语法特性详解&#160;attilax&#160;总结

Atitit.jdk java8的语法特性详解 attilax 总结 1.1. 类型推断这个特别有趣的.鲜为人知的特性1 2. Lambda1 2.1. 内部迭代意味着改由Java类库来进行迭代,而不是客户代码.例如:1 2.2. Stream 流失接口 管道(pipelines)模式2 2.3. 方法引用(Method reference)2 2.4.  默认方法(Default method)2 2.5. 生成器函数(Generator function)2 2.6. 新加入的Nashorn

Linux系统根文件以及命名规则详解

一.Linux系统根文件详解 Linux的重要哲学思想其实就是:将程序的配置文件保存为纯文本格式. 1./boot:系统启动文件,如:内核文件,iniyrd以及gurb(bootloarder) 2./dev:目录下为设备文件,设备文件又分为块设备和字符设备: 块设备:按数据块随机访问,没有顺序. 字符设备:线性访问,按字符为单位进行. 注:其中背景为黑色,字体为***的文件,为特殊文件,"1,   0"分别为文件的主设备号和次设备号 [[email protected] ~]# ls

OSChina 技术周刊第二十二期 —— DUBBO 配置规则详解

每周技术抢先看,总有你想要的! 移动开发 [翻译]为你的 Android 应用增加本地搜索功能 前端开发 [软件]AngularJS 的剪贴板扩展 ngClip [软件]国际化和本地化 JavaScript 库 Globalize [资讯]为网站开发准备的 30 个惊艳的 jQuery 插件 服务端开发/管理 [翻译]一年之后重新审视 Docker -- 根本性缺陷和炒作 [翻译]单线程 1KB 的 Redis 写操作有 84% 都是耗费在内核上 [翻译]使用 HAProxy 基于 HTTP 头