python爬虫正则表达式

1、正则表达式概念：用来简洁表达字符串的方式。（regular expression regex RE）

　　　　　　　　　通用的字符串框架

　　　　　　　　　针对字符串表达“简洁”和“特征”思想的工具。

2、正则表达式的语法：

　　2.1、“.”　　：表示任何单个字符

　　2.2、“[]”　　：字符集，对单个字符给出取值范围

　　　　　　　　　[abc]表示a、b、c，[a-z]表示a到z单个字符

　　2.3、“[^]”　　：非字符集

　　　　　　　　[^abc]表示不是a，b，c，的单个字符

　　2.4、“*”　　：前一个字符的0次或无限次扩展

　　2.5、“+”　　：前一个字符1次或无限次扩展

　　2.6、“?”　　：前一个字符的0次或1次扩展

　　2.7、“|”　　：或，左右表达式任意一个

　　　　　　　　abc|def 表示abc或def

　　2.8、“{m}”　　:扩展前一个字符m次

　　2.9、“{m,n}”　　：扩展前一个字符m至n次（含n）

　　2.10、“^”　　：匹配字符串开头

　　　　　　　　^abc 表示abc开头字符串

　　2.11、“$”　　：匹配字符串结尾

　　　　　　　　abc$ 表示abc结尾字符串

　　2.12、“()”　　：分组标记，内部智能使用“|”操作符

　　2.13、“\d”　　：数字，等价于[0-9]

　　2.14、“\w”　　：单词字符，等价于[A-Za-z0-9_]

　　　　　eg：^[A-Za-z]+$ ：表示由26个字母组成的字符串

　　　　　　：^[A-Za-z0-9]+$：表示由26个字母和数字组成的字符串

　　　　　　：^-?\d+$：整数形式的字符串　　　　　#“-”扩展0次或一次，表示正负

　　　　　　：^[0-9]*[1-9][0-9]*$：表示正整数形式的字符串

　　　　　　：[1-9]\d{5}：中国境内邮政编码，6位

　　　　　　：[\u4e00-\u9fa5]：匹配中文字符

3、re库的使用

原文地址：https://www.cnblogs.com/oldhuang/p/10341269.html

时间： 2024-08-27 07:46:59

python爬虫正则表达式的相关文章

Python爬虫-正则表达式

正则表达式只提取关注的数据,进行数据赛选原子: 基本组成单位普通的字符非打印支付通用字符普通的字符 >>> import re >>> pat="yue" >>> string="http://yum.iqianyue.com" >>> rst1=re.search(pat,string) >>> print(rst1) <_sre.SRE_Match obj

2017-07-27 13:52:08 一.正则表达式的概念 (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中. 正则表达式是用来简洁表达一组字符串的表达式正则表达式是一种通用的字符串表达框架正则表达式是一种针对字符串表达"简洁"和"特征"思想的工具正则表达式可以用来判断某字符串的特征归属 (2)正则表达式是一个字符串,通过编译将符合正则表达式语法的字符串转换成正则表达式特征. 二.正则表达式的语法正则表达式语法由字符和操作符构成

Python爬虫-正则表达式基础

import re #常规匹配 content = 'Hello 1234567 World_This is a Regex Demo' #result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',content) #print(result.group()) #print(result.span()) #泛匹配 #result = re.match("^Hello.*Demo$",content) #print(result)

数据之路 - Python爬虫 - 正则表达式

一.常用匹配模式 \w 匹配字母数字及下划线 \W 匹配f非字母数字下划线 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字 \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束,如果存在换行,只匹配换行前的结束字符串 \z 匹配字符串结束 \G 匹配最后匹配完成的位置 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开头 $ 匹配字符串的末尾 . 匹配任意字符,除了换行符,re.DOTALL标记被指定时,则可以匹配包括换行符

Python爬虫入门七之正则表达式

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我

转 Python爬虫入门七之正则表达式

静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了. 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

Python爬虫入门之正则表达式

python爬虫(四)--python正则表达式

在爬虫的学习过程中,又一个你必须要掌握的知识点就是正则表达式爬虫程序需要爬取你需要的东西,那么就对爬取的结果进行筛选,正则表达式就起到这样的作用如果你学过任何一门语言,相信你都会接触正则表达式.并且正则表达式大多相同. 不管怎样,就像开头说的那样,因为这是爬虫基础教程.所以这篇文章要详细的说一下python的正则表达式.开始进入正题吧. 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正