爬虫前提——正则表达式语法以及在Python中的使用

正则表达式是用来处理字符串的强大工具，他并不是某种编程云。

正则表达式拥有独立的承受力引擎，不管什么编程语言，正则表达式的语法都是一样的。

正则表达式的匹配过程

1.一次拿出表达式和文本中的字符比较。

2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。

3.如果表达式中有两次或便捷，这个过程会稍微有一些不同。

下面举例一些符号

[....]　

字符集（字符类）。对应的位置可以是字符集中任意字符。字符集中的字符可以猪哥列出，也可以给出范围，如[abc]或[a-c]。第一个字符如果是^则表示取反，如果[^abc]表示不是abc的其他字符。所有的特殊字符在字符集中都是去某原有的特殊含义。在字符集中如果是用]、-或^，可以在前面加上转移字符反斜杠\,或把]、-放在第一个字符，把^放在非第一个字符。

预定义字符集（可以写在字符集[....]中）：

\d　　数字：[0-9]

\D　　非数字：[^\d]

\s　　空白符：[<空格>\t\r\n\f\v]

\S　　非空白符：[^\s]

\w　　单词字符：[A-Za-z0-9_]

\W　　飞单词字符：[^\w]

数量词（用在字符或（...）之后）

*　　匹配前一个字符0或无限次

+　　匹配前一个次1次或无限次

？　　匹配前一个次0次或1次

{m}　　匹配前一个字符m次

{m,n}　　匹配前一个字符m至n次（多于n次则失败）

　　　　m和n可以省略：若省略m，则匹配0至n次；若省略n，则匹配m至无限次

边界匹配（不消耗待匹配字符串中的字符）

^　　匹配字符串开头。在多行模式中匹配每一行的开头。

$　　匹配字符串末尾。在多行模时匹配每一行的末尾。

\A　　仅匹配字符串开头。

\Z　　仅匹配字符串末尾。

\b　　匹配\w和\W之间

\B　　[^\B]

逻辑、分组：

|　　代表左右表达式任意匹配一个。（类比于C语言的或语句，它总是先匹配左边的表达式，一旦成功匹配则跳过匹配右边的表达式。如果|没有被包括在()中，则它的范围是整个正则表达式。）

(...)　　被括起来的表达式将作为分组，从表达式左边开始没遇到一个分组的左括号‘(‘，编号+1.另外，分数表达式作为一个整体，可以后街数量词。表达式中仅在该组中有效。

(?P<name>...)　　分组，除了原有的编号外再指定一个额外的别名。

\<number>　　引用编号为<number>分组匹配到的字符串。

(?P=name)　　引用别名为<name>的分组匹配到的字符串。

特殊构造（不作为分组）：

(?:...)　　(...)的不分组版本，用于食用‘|‘或后接数量词。

(?iLmsux)　　iLmsux的每个字符代表一个匹配模式，只能用在正则表达式的开头，可选多个。

(?#...)　　#后的内容将作为注释被忽略。

(?=...)　　之后的字符串内容需要匹配表达式才能成功匹配。不消耗字符串内容。

(?!...)　　之后的字符串内容需要不匹配表达式才能成功匹配。不消耗字符串。

(?<=...)　　之前的字符串内容需要匹配表达式才能成功匹配。不消耗字符串内容。

(?<!...)　　之前的字符串内容需要不匹配表达式才能成功匹配。不消耗字符串内容。

(?(id/name)yes-pattern|no-pattern)　　如果编号为id/别名为name的组匹配到字符串，则需要匹配yes-pattern，否则需要匹配no-=attern。[no-pattern]可省略。

数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。

贪婪模式：总是尝试撇皮尽可能多的字符；（Python里数量词默认是贪婪的）

非贪婪模式：总是尝试匹配尽可能少的字符。（在贪婪模式的*或+后加上?，就变成了非贪婪模式）

python中如何使用正则表达式

python中是通过一个叫"re"的包来支持正则表达式。

结果如下：

我们来分析一下pattern = re.compile(r‘\d+\.\d*‘) 这个语句:

\d表示数字[0-9]

+表示重复出现上一次匹配的1次或n次

\.表示字符‘.’

*表示重复出现上一次匹配的0次或n次

r实际上是python告诉编译器这个字符串中的全部转义字符失效，按照原始字符串处理。

所以\d+.\d*实际上是表示匹配一些小数的规则。然而这个表达式并不能正确匹配所有的小数，比如‘0.‘这样的字符也会被匹配，举这个例子纯粹是为了多讲几个符号。

由于我们已经建立好了一个能够匹配‘\d+.\d*‘规则的pattern对象。

通过pattern的findall方法就能够匹配到我们想要的字符串。

返回的是一个字符串列表[]。

原文地址：https://www.cnblogs.com/jian-99/p/8991863.html

时间： 2024-10-14 08:39:57

爬虫前提——正则表达式语法以及在Python中的使用的相关文章

Python中正则表达式（re模块）的使用

1.正则表达式的概述 (1)概述:正则表达式是一些由字符和特殊符号组成的字符串,他们描述了模式的重复或者表示多个字符,正则表达式能按照某种模式匹配一系列有相似特征的字符串.正则表达式是一种小型的.高度的专业化的编程语言, (2)Python语言中的正则表达式内嵌在Python中通过re模块实现,正则表达式被编译成一系列的字节码,然后由C编写的匹配引擎执行 2.字符匹配 (1)符号匹配符号描述示例实例说明 literal 匹配文本字符串的字面值literal root 匹配字符串root

第五章 python中正则表达式的使用

第一节正则表达式的一些介绍 1)掌握正则表达式的案例 2)写一个小爬虫 3)正则表达式(或RE)是一个小型的.高度专业化的编程语言,(在python中)它内嵌在python中,并通过re模块实现. - 可以为想要匹配的相应字符串集指定规则 - 该字符串集可能包含英文语句.e-mail地址.命令或任何你想搞定的东西 - 可以问诸如“这个字符串匹配该模式吗?” - “在这个字符串中是否有部分匹配该模式呢?” - 你也可以使用RE以各种方式来修改或分割字符串. 4)正则表达式模式被编译成一系列

正则表达式与Python中re模块的使用

正则表达式与Python中re模块的使用最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 另外,给大家介绍一个在线测试正则表达式的神器网站:http://tool.chinaz.com/regex 大家可以去这里练习正则表达式下面总结一下正则表达式与re模块的基础与使用. 正则表达式使用场景关于正则表达式的基本概念这里就不赘述了,大家可以去各种百科里查找它的定义.正则的使用场景主要分为两个: 一是:检测某一段字符串是否符合规则,也就是我们常说的"校验"

Python中re(正则表达式)模块函数学习

今天学习了Python中有关正则表达式的知识.关于正则表达式的语法,不作过多解释,网上有许多学习的资料.这里主要介绍Python中常用的正则表达式处理函数. 方法/属性作用 match() 决定 RE 是否在字符串刚开始的位置匹配 search() 扫描字符串,找到这个 RE 匹配的位置 findall() 找到 RE 匹配的所有子串,并把它们作为一个列表返回 finditer() 找到 RE 匹配的所有子串,并把它们作为一个迭代器返回 match() 函数只检查 RE 是否在字符串开始处匹配

python 中正则表达式

. 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束代码/语法说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 [aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!). [0-9]代表的含意与\d就是完全一致的:一位数字:同理[a-z0-9A-Z_]也完

22.python中的面向对象和类的基本语法

当我发现要写python的面向对象的时候,我是踌躇满面,坐立不安呀.我一直在想:这个坑应该怎么爬?因为python中关于面向对象的内容很多,如果要讲透,最好是用面向对象的思想重新学一遍前面的内容.这个坑是如此之大,犹豫再三,还是只捡一下重要的内容来讲吧,不足的内容只能靠大家自己去补充了. 惯例声明一下,我使用的版本是 python2.7,版本之间可能存在差异. 好,在开讲之前,我们先思考一个问题,看代码: 为什么我只创建是为 a 赋值,就可以使用一些我没写过的方法? 可能会有小伙伴说:因为 a

正则表达式学习与python中的应用

目录: 一.正则表达式的特殊符号二.几种重要的正则表达式三.python的re模块应用四.参考文献一.正则表达式的特殊符号特殊符号可以说是正则表达式的关键,掌握并且可以灵活运用重要的python符号,基本就搞定了正则表达式,不过我不敢说自己已经到了炉火纯青的地步. .(点号),该符号可以匹配任何的字符,当然要换行符除外.在python中,如果存在re.DOTALL,那么即使是换行符,也同样可以匹配,这个DOTALL就是一个标记flag. eg:re.compile(r'\b\w.’,r

Python中的正则表达式-re模块

有时候我们需要模糊查找我们需要的字符串等值,这个时候需要用到正则表达式. 正则表达式的使用,在python中需要引入re包 import re 1.首先了解下正则表达式的常用语法 --单个字符 . 任意的一个字符 a|b 字符a或字符b [afg] a或者f或者g的一个字符 [0-4] 0-4范围内的一个字符 [a-f] a-f范围内的一个字符 [^a] 不是a的一个字符 \s 一个空格 \S 一个非空格 \d [0-9],即0-9的任意字符 \D [^0-9],即非0-9的任意字符 \w [0

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai