正则表达式的基础知识

概念：

正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。

使用场景：

在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

tip

1、处理正则表达式的工具会提供一个忽略大小写的选项，

2、只使用一个正则表达式，可能不能准确的第筛选，这时，可以采用分支结构，但是分支结构使用过程中，也要注意各个表达式的先后顺序；

3、但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

use:

1、\b是正则表达式规定的一个特殊代码（也叫元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。

假如你要找的是hi后面不远处跟着一个Lucy，你应该用\bhi\b.*\bLucy\b。

\bhi\b

\b[Hh]i\b

\b(H|h)i\b

常用元字符：

后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本。难以理解？请看示例：

\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(\s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)。

你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+)(或者把尖括号换成‘也行：(?‘Word‘\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k<Word>,所以上一个例子也可以写成这样：\b(?<Word>\w+)\b\s+\k<Word>\b。

正则表达式的更深层次东西，我暂且还没有学到，但是这些基本可以应该可以应付一些基础的使用！

每日弟子规：

事虽小勿擅为苟擅为子道亏

物虽小勿私藏苟私藏亲心伤

第五天！

加油！

时间： 2025-01-20 06:02:22

正则表达式的基础知识的相关文章

scala和正则表达式常用基础知识示例

http://www.cnblogs.com/deerchao/archive/2006/08/24/zhengzhe30fengzhongjiaocheng.html . 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s 匹配任意的空白符\d 匹配数字\b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束在[]里面不需要转义,在外面,如().?之类的字符是需要转义的.后向引用示例:\b(\w+)\b\s+\1\

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

正则表达式的基础知识

正则表达式的基础知识的相关文章

scala和正则表达式常用基础知识示例

正则表达式基础知识（一）

javascript之正则表达式基础知识小结

转：正则表达式基础知识

JavaScript基础知识梳理----正则表达式

java正则表达式基础知识（转）

php基础知识（5）正则表达式

Scala学习笔记--正则表达式基础知识、如何在scala内使用