Python爬虫-正则表达式基础

import re

#常规匹配
content = ‘Hello 1234567 World_This is a Regex Demo‘
#result = re.match(‘^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$‘,content)
#print(result.group())
#print(result.span())

#泛匹配
#result = re.match("^Hello.*Demo$",content)
#print(result)

#目标匹配
#result = re.match(‘^Hello\s(\d+)\sWorld.*Demo$‘,content)
#print(result.group(1))

#贪婪(匹配尽可能多的字符)
#result = re.match(‘^He.*(\d+).*Demo$‘,content)

#非贪婪
#result = re.match(‘^He.*?(\d+).*Demo$‘,content)
#print(result.group(1))

#匹配模式(存在换行符)
#result = re.match(‘^He.*?(\d+).*Demo$‘,content,re.S)

#转义\

#总结：尽量使用泛匹配，使用括号得到匹配目标，尽量使用非贪婪模式，有换行re.S
#re.search()扫描整个字符串并返回第一个匹配，match开头需要一样的
#re.findall(), 返回所有匹配的
#re.sub()替换
#re.compile()编译正则表达式对象

原文地址：https://www.cnblogs.com/amojury/p/9127563.html

时间： 2024-10-05 04:40:45

Python爬虫-正则表达式基础的相关文章

Python爬虫-正则表达式

正则表达式只提取关注的数据,进行数据赛选原子: 基本组成单位普通的字符非打印支付通用字符普通的字符 >>> import re >>> pat="yue" >>> string="http://yum.iqianyue.com" >>> rst1=re.search(pat,string) >>> print(rst1) <_sre.SRE_Match obj

python爬虫之基础学习(一) 网络爬虫网络爬虫也叫网络蜘蛛.网络机器人.如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情.网络爬虫的产生就是代替人力在互联网中自动进行信息采集和整理. 网络爬虫的组成网络爬虫由控制节点.爬虫节点以及资源库构成,简单而言就是控制节点控制爬虫节点爬取和处理网页存储到资源库中.网络爬虫中有多个控制节点和爬虫节点,一个控制节点控制着多个爬虫节点,同一个控制节点下的多个爬虫节点可以相互通信,多个控制节点也可以相互通信.

python爬虫相关基础概念

什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面做得不好. 2.java:可以实现爬虫.java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱的.但是java实现爬虫代码较为臃肿,重构成本较大. 3.c.c++:可以实现爬虫.相比较来说难度比较大. 4.python:可以实现爬虫.python实现和处理爬虫语法简单,代码优美学习成本低,支持的模块比较多,具

python爬虫---mongodb基础

一,mongodb简介 MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案.MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引.

Python 爬虫-正则表达式

2017-07-27 13:52:08 一.正则表达式的概念 (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中. 正则表达式是用来简洁表达一组字符串的表达式正则表达式是一种通用的字符串表达框架正则表达式是一种针对字符串表达"简洁"和"特征"思想的工具正则表达式可以用来判断某字符串的特征归属 (2)正则表达式是一个字符串,通过编译将符合正则表达式语法的字符串转换成正则表达式特征. 二.正则表达式的语法正则表达式语法由字符和操作符构成

python 爬虫urllib基础示例

环境使用python3.5.2 urllib3-1.22 下载安装 wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgz tar -zxf Python-3.5.2.tgz cd Python-3.5.2/ ./configure --prefix=/usr/local/python make && make install mv /usr/bin/python /usr/bin/python275 ln -s /us

python爬虫正则表达式

1.正则表达式概念:用来简洁表达字符串的方式.(regular expression regex RE) 通用的字符串框架针对字符串表达"简洁"和"特征"思想的工具. 2.正则表达式的语法: 2.1."." :表示任何单个字符 2.2."[]" :字符集,对单个字符给出取值范围 [abc]表示a.b.c,[a-z]表示a到z单个字符 2.3."[^]" :非字符集 [^abc]表示

数据之路 - Python爬虫 - 正则表达式

一.常用匹配模式 \w 匹配字母数字及下划线 \W 匹配f非字母数字下划线 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字 \D 匹配任意非数字 \A 匹配字符串开始 \Z 匹配字符串结束,如果存在换行,只匹配换行前的结束字符串 \z 匹配字符串结束 \G 匹配最后匹配完成的位置 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开头 $ 匹配字符串的末尾 . 匹配任意字符,除了换行符,re.DOTALL标记被指定时,则可以匹配包括换行符

python re 正则表达式-基础版

import re #正则表达式是用来干什么的?匹配字符串 #首先回顾一下字符串的使用方法. # s = "hello world" # print(s.find("e")) #查找 # ret = s.replace("ll","xx") # print(ret) # print(s.split("w")) #string提供的方法是完全匹配. #切入正题,正则匹配[模糊匹配] # print(re.fi