先来看一个例子,要求写一段代码,实现如下功能:
从标准输入中读取一行字符串, 从中读取所有邮箱的格式;
对于这个问题,用传统的方式是可以解决的:
我们可以用解析字符串的方式实现,需要遍历一遍获取的字符串,读取其中关键的几个字符 “.” "@" ".com" 和其中的相关顺序;
C++11支持正则表达式,利用它可以避免重复造轮子;
代码:
#include <iostream> #include <string> #include <regex> int main() { std::string line; std::regex email(R"(\[email protected](\w+\.)+\w+)"); while ( getline(std::cin, line) ) { std::smatch matches; auto current = cbegin(line); auto last = cend(line); while ( current != last ) { if (regex_search(current, last, matches, email)) { std::ssub_match match = matches[0]; current = match.second; std::cout << "[ " << match.str() << " ]" << std::endl; } else { break; } } } }
——————————————————————
正文:
一、正则表达式介绍
正则表达式(regular expression) 是一种描述字符序列的方法,是一种极其强大的计算工具。C++11中新增了这一特性,在 C++正则表达式库(RE库)中。
PS:RE库,定义在头文件 "regex"内,命名空间:std;
正则表达式组件:
regex : 表示有一个正则表达式的类;
regex_match : 将一个字符序列与一个正则表达式匹配;
regex_search : 寻找第一个与正则表达式匹配的子序列;
regex_replace : 使用给定格式替换一个正则表达式;
sregex_iterator : 迭代器适配器,调用regex_search 来遍历一个string中所有匹配的子串;
smatch : 容器类,保存在string中搜索的结果;
ssub_match : string中匹配的子表达式的结果;
接下来简单介绍几个常用的组件:
regex类:
表示一个正则表达式。除了初始化和赋值操作,还支持其他的一些操作(后面介绍);
regex_match方法:
确定一个给定字符序列与一个给定regex对象是否完全匹配,返回true/false,如果匹配到,将匹配到的内容保存起来;
segex_search方法:
确定一个给定字符序列与一个给定regex对象是否匹配,只要有部分匹配,就返回true,如果匹配到,将匹配到的部分保存起来;
以上两个方法均有2个重载版本,分别为:
(seq, m, r, mft) (seq, r, mft) /* seq: 待查找的字符串序列, 可以是一个std::string,或表示范围的一对迭代器,或一个指向空字符结尾的字符数组的指针 m: match对象,用来保存匹配结果的相关细节 r: regex对象,匹配的类型 mft: (可选) regex_constants::match_flag_type类型,它们会影响匹配过程 (后述) */
二、使用RE库
(待续)