正则表达式的使用,字符串提取,字符串匹配(C#语言)

在程序中常常设计字符串的处理,比如①:判断用户的输入字符串是否符合要求,是否是非法字符串,②:取出一个很复杂字符串的某一程序中需要的部分等

这事用自己写算法判断通常是十分困难的,所以遇到字符串的处理时要很快想到用正则表达式。

一:正则表达式元字符

•要想学会正则表达式,理解元字符是一个必须攻克的难关。不用刻意记

•.:匹配任何单个字符。例如正则表达式“b.g”能匹配如下字符串:“big”、“bug”、“b g”,但是不匹配“buug”,“b..g”可以匹配“buug”。

•[ ] :匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示,例如正则表达式[0-9]可以匹配任何数字字符,这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串;还可以制定多个区间,例如“[A-Za-z]”可以匹配任何大小写字母,“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。

•( ) :将 () 之间括起来的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。

•| :将两个匹配条件进行逻辑“或”运算。‘z|food‘ 能匹配 "z" 或 "food"。‘(z|f)ood‘ 则匹配 "zood" 或 "food"。

•*:匹配0至多个在它之前的子表达式,和通配符*没关系。例如正则表达式“zo*”能匹配 “z” 、“zo”以及 “zoo”;因此“.*”意味着能够匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab(用括号改变优先级)。

•+ :匹配前面的子表达式一次或多次,和*对比(0到多次)。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ,不能匹配"z"。

•? :匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 。一般用来匹配“可选部分”。

•{n} :匹配确定的 n 次。"zo{2}"→zoo。例如,“e{2}” 不能匹配“bed”中的“e”,但是能匹配“seed”中的两个“e”。

•{n,} :至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。

•{n,m} :最少匹配 n 次且最多匹配 m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。

•^(shift+6) :匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始,但是不能匹配“我会用regex”。

•^另外一种意思:非!(暂时不用理解)

•$ :匹配行结束符。例如正则表达式“浮云$” 能够匹配字符串“一切都是浮云”的末尾,但是不能匹配字符串“浮云呀”

•正则表达式是与语言无关真的就是想表达\d。

注意这些简写表达式是不考虑转义符的,这里的\就表示字符\,而不是C#字符串级别的\,在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转移,恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转移是在C#之后的(层层盘剥)。把C#的转义符想成%就明白了。在C#看来@"\-"就是\-这个普通的字符串,只不过在

二、.Net中的正则表达式

1.字符串的匹配:

•正则表达式在.Net就是用字符串表示,这个字符串格式比较特殊,无论多么特殊,在C#语言看来都是普通的字符串,具体什么含义由Regex类内部进行语法分析。

•正则表达式(Regular Expression)的主要类:Regex.IsMatch方法用于判断一个字符串是否匹配正则表达式。

•字符串匹配例子:

Regex.IsMatch("bbbbg","^b.*g $");

Regex.IsMatch("bg", "^b.*g $ ");

Regex.IsMatch("gege", "^b.*g $ ");

一定不能忘了^和$,否则也能匹配yesbagit

例如:

•判断是否是合法的邮政编码(6位数字)

•Regex.IsMatch("100830","^[0-9]{6}$")

Regex.IsMatch("119", @"^\d{6}$");

解释:由元字符定义得知"[0-9]"表示0到9的任意字符,"{6}"表示前面的字符匹配6此,因此“[0-9]{6}”中的{6}表示对数字匹配6次。简写表达式得知“[0-9]”可以被“\d”代替,所以第二种写法“\d{6}”也是正确的。不要忘了@或者\\d

•判断一个字符串是不是身份证号码,即是否是15或18位数字。

•错误写法:Regex.IsMatch("123456789123456789", @"^\d{15}|\d{18}$"),表示15位数字开头或者18位数字结尾。

•正确写法:Console.WriteLine(Regex.IsMatch("0111111111111111", @"^\d{15}$|^\d{18}$"))或者@"^(\d{15}|\d{18})$"

•判断字符串是否为正确的国内电话号码,不考虑分机。比如“010-95555”、“01095555”、“95555”都是正确的号码。区号为3位或者4位。

• Regex.IsMatch("123456-95555", @"^\d{3,4}\-?\d+$")

•"^\d{3,4}\-?\d+$"表示被匹配的字符序列应该是由三至四位数字组成,由于长途区号的连字符“-”可有可无,所以这里使用“?”元字符进行说明。由于连字符“-”在正则表达式中有特殊含义(表示范围,比如[0-9]),所以要对其进行转义。

•判断一个字符串是否是合法的Email地址。一个Email地址的特征就是以一个字符序列开始,后边跟着“@”符号,后边又是一个字符序列,后边跟着符号“.”,最后是字符序列

•Regex.IsMatch("[email protected]", @"^\[email protected]\w+\.\w+$");

•[]括号中的任意字符,\w字母、数字、下划线,+一到多个。由于.在正则表达式中有特殊的含义,因此对于真正想表达“.”则需要转移“\.”。先想正则表达式是语言无关的。这是因为C#中、正则表达式中\都代表转义符,就有点乱了。考虑的时候先不考虑C#语言,分成两步先考虑正则表达式语法,再考虑找个正则表达式在C#中如何表示。

•取巧的办法:从ASP.Net的RegularExpressionValidator中抄常用的正则表达式,工作中一般是从网上找现成的。

2.字符串提取:

•正则表达式还可以用来进行字符串提取

Match match = Regex.Match("age=30", @"^(. +)=(.+)$");

if (match.Success)

{

Console.WriteLine(match.Groups[1] .Value);

Console.WriteLine(match.Groups[2] .Value);

}

match的Success属性表示是否匹配成功;正则表达式中用()将要提取的内容括起来,然后就可以通过Match的Groups属性来得到所有的提取元素,注意Groups的序号是从1开始的,0有特殊含义

贪婪模式与非贪婪模式

•从文本提取出名字:

•Match match = Regex.Match("大家好。我是S.H.E。我22岁了。我病了,呜呜。fffff", "我是(.+)。");//没有加^$。

•看结果。+、*的匹配默认是贪婪(greedy)的:尽可能多的匹配,直到“再贪婪一点儿”其后的匹配模式就没法匹配为止。

•在+、*后添加?就变成非贪婪模式(? 的另外一个用途):让其后的匹配模式尽早的匹配。修改成"我是(.+?)。"

•一般开发的时候不用刻意去修饰为非贪婪模式,只有遇到bug的时候发现是贪婪模式的问题再去解决。因为贪婪效率高。

匹配组

•正则表达式可以从一段文本中将所有符合匹配的内容都输出出来。Match获得的是匹配的第一个。Regex.Matches方法可以获得所有的匹配项。注意区别:匹配和group的区别:见备注1

•练习:从一段文本中提取所有的数字

MatchCollection matches = Regex.Matches("大家好,我是Hebe,我22岁了,身高180,我们团队有3个女女!", @"\d+");

foreach(Match match in matches)

{Console.WriteLine(match.Value);}

3.C#字符串提取示例代码:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Text.RegularExpressions;

namespace 正则表达式取括号里面的值
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }
        //使用正则表达式将,字符串中的需要的数据取出来
        //本例去除host,port,已经sid的值
        private void button1_Click(object sender, EventArgs e)
        {
            string host;
            string PORT;
            string SID;
            string str = "(DESCRIPTION = (ADDRESS_LIST = (ADDRESS = (PROTOCOL = TCP)(HOST = ahnu)(PORT = 1521)))(CONNECT_DATA = (SID =orcl)))";
            str = str.Trim();
            //方法一:一个一个取,有针对性,
            Match match = Regex.Match(str, @"\(HOST=?(.+?)\)");
            if (match.Success)
            {
                 host = match.Groups[1].Value;
            }
            match = Regex.Match(str, @"\(PORT=?(.+?)\)");
            if (match.Success)
            {
                 PORT = match.Groups[1].Value;
            }
            match = Regex.Match(str, @"\(SID=?(.+?)\)");
            if (match.Success)
            {
                 SID = match.Groups[1].Value;
            }

            //方法二:取出所有的匹配字符串,这里只是介绍如果多个字符串匹配如何处理。
            MatchCollection mts = Regex.Matches(str, @"\(HOST(.+?)=?(.+?)\)");
            for (int i = 0; i < mts.Count; i++)
            {
                Match mt = mts[i];
                MessageBox.Show(mt.Value);
                MessageBox.Show(mt.Groups[1].Value);
            }

            //方法三:先取出一部分然后作为新的字符串再提取,这样做避免正则表达式的部分写错而匹配不了 情况。
            Match m = Regex.Match(str, @".+?=.+?=.+?=(.+?)\)\).+?=(.+?)\)\)");
            if (m.Success)
            {
              string   s1 = m.Groups[1].Value;//"  (PROTOCOL = TCP)(HOST = AHNU)(PORT = 1521"
              string   s2 = m.Groups[2].Value;// (SID =ORCL"
              if (m.Success)
              {
                  string str3 = m.Groups[1].Value;
                  string str4 = m.Groups[2].Value; //" (PROTOCOL = TCP)(HOST = AHNU)(PORT = 1521"

                      if (m.Success)
                      {
                           host = m.Groups[1].Value;
                           PORT = m.Groups[2].Value;
                      }
                  m = Regex.Match(s2, @"\(.+?=(.+)");
                  if (m.Success)
                  {
                       SID = m.Groups[1].Value;
                  }
              }
            }
        }
    }
}
时间: 2024-11-04 19:39:24

正则表达式的使用,字符串提取,字符串匹配(C#语言)的相关文章

Lua字符串及字符串匹配

--lua中字符串索引从前往后是1,2,--,从后往前是-1,-2--. --string库中所有的function都不会直接操作字符串,只返回一个结果  基本函数 函数 描述 示例 结果 len 计算字符串长度 string.len("abcd") 4 rep 返回字符串s的n个拷贝(repeat重复) string.rep("abcd",2) abcdabcd lower 返回字符串全部字母大写 string.lower("AbcD") ab

Java正则表达式提取字符

需求:提取车牌号中最后一个数字,如:宁A7865提取5,宁A876X提取6 实现方法: import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { public static void main(String[] args) { String s = "A876X"; // 把要匹配的字符串写成正则表达式,然后要提取的字符使用括号括起来 // 在这里,我们要提取最后一个数字,正则

数据结构之 字符串---字符串匹配(kmp算法)

串结构练习——字符串匹配 Time Limit: 1000MS Memory limit: 65536K 题目描述 给定两个字符串string1和string2,判断string2是否为string1的子串. 输入 输入包含多组数据,每组测试数据包含两行,第一行代表string1,第二行代表string2,string1和string2中保证不出现空格. 输出 对于每组输入数据,若string2是string1的子串,则输出"YES",否则输出"NO". 示例输入

[算法系列之十四]字符串匹配之Morris-Pratt字符串搜索算法

前言 我们前面已经看到,蛮力字符串匹配算法和Rabin-Karp字符串匹配算法均非有效算法.不过,为了改进某种算法,首先需要详细理解其基本原理.我们已经知道,暴力字符串匹配的速度缓慢,并已尝试使用Rabin-Karp中的一个散列函数对其进行改进.问题是,Rabin-Karp的复杂度与强力字符串匹配相同,均为O(mn). 我们显然需要采用一种不同方法,但为了提出这种不同方法,先来看看暴力字符串匹配有什么不妥之处.事实上,再深入地研究一下它的基本原理,就能找到问题的答案了. 在暴力匹配算法中,需要检

Python正则表达式(3)--字符串匹配开头结尾

Python正则表达式(3)--匹配开头结尾 字符 功能 ^ 匹配字符串开头 $ 匹配字符串结尾 示例1:$ 需求:匹配163.com的邮箱地址 import re email_list = ["[email protected]","[email protected]","[email protected]"] # [\w]{4,20}@163\.com$", email # \w}{4,20}@163\.com$ for email

正则表达式及R字符串处理之终结版

转载于: 正则表达式及R字符串处理之终结版 0.动机:为什么学习字符串处理 传统的统计学教育几乎没有告诉过我们,如何进行文本的统计建模分析.然而,我们日常生活中接触到的大部分数据都是以文本的形式存在.文本分析与挖掘在业界中也有着非常广泛的应用. 由于文本数据大多属于非结构化的数据,要想对文本数据进行传统的统计模型分析,必须要经过层层的数据清洗与整理. 今天我们要介绍的『正则表达式及R字符串处理』就是用来干这一种脏活累活的. 与建立酷炫的模型比起来,数据的清洗与整理似乎是一种低档次的工作.如果把建

【Java编程】Java中的字符串匹配

在Java中,字符串的匹配可以使用下面两种方法: 1.使用正则表达式判断字符串匹配 2.使用Pattern类和Matcher类判断字符串匹配 正则表达式的字符串匹配: 正则表达式:定义一组字符串的一系列字符和符号,它由常量字符和特殊符号构成. 下面是正则表达式的一些预定义字符类,实际上是一些转义字符序列: 1.\d   代表任何数字 2.\D  代表任何非数字字符 3.\w  代表任何单字字符(如:字母.数字.下划线等等) 4.\W  代表任何非单字字符 5.\s   代表任何空白字符 6.\S

字符串匹配算法分析及Java实现

字符串模式匹配算法(string searching/matchingalgorithms) 顾名思义,就是在一个文本或者较长的一段字符串中,找出一个或多个指定字符串(Pattern),并返回其位置.这类算法属基础算法,各种编程语言都将其包括在自带的String类函数中,而且由之衍生出来的正则表达式也是必须掌握的一种概念和编程技术. Brute-Force算法 其思路很简单:从目标字符串初始位置开始,依次分别与Pattern的各个位置的字符比较,如相同,比较下一个位置的字符直至完全匹配:如果不同

【数据结构】 字符串&amp;KMP子串匹配算法

字符串 作为人机交互的途径,程序或多或少地肯定要需要处理文字信息.如何在计算机中抽象人类语言的信息就成为一个问题.字符串便是这个问题的答案.虽然从形式上来说,字符串可以算是线性表的一种,其数据储存区存储的元素是一个个来自于选定字符集的字符,但是字符串由于其作为一个整体才有表达意义的这个特点,显示出一些特殊性.人们一般关注线性表都会关注其元素和表的关系以及元素之间的关系和操作,而字符串常常需要一些对表整体的关注和操作. 字符串的基本概念如长度,比大小,子字符串等等这些,只要有点编程基础的人都懂就不