在学习网络爬虫的过程中,需要抓取网页的评论数,涉及到正则表达式,便顺便看了看。正则表达式是文字处理中常用的工具。
1正则表达式的常用字符串
. 任何单个字符
【】 字符集对单个字符给出取值范围
【^】非字符集
* 前一个字符重复0或多次
+ 前一个字符重复1或多次
? 前一个字符重复0或1次
| 或者
{m} 前一个字符扩展m次
{m,n}前一个字符扩展m至n次
^ 匹配字符串开头
$ 匹配字符串结束
\d 【0-9】
\w 单词字符
2主要功能函数
import re #导入re包 m=re.search(pattern,string) #搜索整个字符串,直到发现符合的字符串 m=re.match(pattern,string) #从字符串的开始位置匹配正则表达式,返回结果 m=re.sub(pattern,replacement,string)#从字符串中查找并替换 m=re.findall() #搜索字符串,将所有符合的子字符串放在一个表中返回 m=re.finditer() #返回一个匹配结果的迭代类型,每个迭代元素是match对象 m=re.split() #将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.group(number) 查看搜索到的结果,group(0)是整个表达式的搜索结果,,group(1)是第一个群,以此类推。
时间: 2024-10-13 02:22:55