提取网页地址时的正则表达式解析

在分析网址中的图片的地址时,会用到如下正则表达式:

src="(.+?\.jpg)"

其中".+?"一直不太明白,"."符号匹配任意字符,"+"匹配1或多次,后面再跟问号却不明白什么意思,后台再去看正则表达式,才发现是懒惰模式,及匹配最少次数。

例如:

要匹配文本

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/sign=5c0f6d1da10f4bfb8cd09e5c334e788f/1ea48c1001e93901ff328fbc7eec54e737d196f9.jpg" pic_ext="jpeg" height="640" width="480">

匹配结果:

src="http://imgsrc.baidu.com/forum/w%3D580/sign=5c0f6d1da10f4bfb8cd09e5c334e788f/1ea48c1001e93901ff328fbc7eec54e737d196f9.jpg"

其中,匹配公式里,+改为*也是可以的。

时间: 2024-10-13 05:02:32

提取网页地址时的正则表达式解析的相关文章

正则表达式解析

正则表达式解析 正则表达式,又称正规表示法.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本. 一.正则表达式的用途 通过使用正则表达式,可以:1.测试字符串内的模式.例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式.这称为数据验证.2.替换文本.可以

如何在网页中提取Email地址

开博好久了,今天第一次发表技术文档,之前总是将一些好的事例保存在电脑,时间久了找起来也很麻烦,所以还是放在博客里进行归类比较方便,这样也能将自己在学习过程中的一些心得体会分享给大家,也能给需要的人一点帮助. 一个朋友需要我帮忙给写一个能够提取网页中Email地址的小程序,所以就用Java语言帮他做了一个,有不完善的地方还请大家谅解,并提出来,一起学习. 源代码详见附件!加压后将将readme.htm放在F:\\share\\readme.htm,也可自定义目录,自定义目录需要修改对应的代码文件路

java如何在网页中提取Email地址

开博好久了,今天第一次发表技术文档,之前总是将一些好的事例保存在电脑,时间久了找起来也很麻烦,所以还是放在博客里进行归类比较方便,这样也能将自己在学习过程中的一些心得体会分享给大家,也能给需要的人一点帮助. 一个朋友需要我帮忙给写一个能够提取网页中Email地址的小程序,所以就用Java语言帮他做了一个,有不完善的地方还请大家谅解,并提出来,一起学习. 源代码详见附件!加压后将将readme.htm放在F:\\share\\readme.htm,也可自定义目录,自定义目录需要修改对应的代码文件路

使用正则表达式提取网页有效信息

从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容. 以下是利用正则表达式匹配并提取网页中特定信息的方法: 采集网页中所有链接标记: <a[^>]*?>[\s\S]*?</a> 以上可以修改a标记采集对应的标记元素. 采集图片: <img[^>]*?/?> 以上可以修改img标记采集对应的标记元素. <div[^>]*?id="idname"[^>]*?>[\s\S]*

asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例

无论你用什么语言,正则表达式的处理方法都是非常灵活.高效的,尤其是对某些字符串的抓取.过滤方面,更显其优势. 正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的执行效率非常高,运行速度相当快.因此我在项目的开发中,通常把正则表达式作为处理问题的首选方法. 正则表达式的运用,在各种语言里都是相通的,也就是说,当你懂得在PHP中使用正则表达式,那么在任何一种语言中也能轻驾就熟. 这里给出两个asp.net实例. 1.asp.net正则表达式提取网址.标题.图片

C#中使用正则表达式提取超链接地址的集中方法

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址.此时可以使用正则表达式轻松完成. Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>"); MatchCollection mc = reg.Ma

在linux下如何用正则表达式执行ifconfig命令,只提取IP地址!

方法太多,先简单到简捷循序渐进. 1. [[email protected] ~]# ifconfig eth0|grep 'inet addr:'    ###过滤不是IP地址的行 inet addr:192.168.16.100  Bcast:192.168.16.255  Mask:255.255.255.0 或者 [[email protected] ~]# ifconfig eth0|sed -n '2p'    ###过滤不是IP地址的行 inet addr:192.168.16.1

chrome浏览器提取网页视频

在我们平时上网看视频听音乐时都会产生缓存,但是我们很难通过一些软件把其中的视频和音乐文件提取出来 关于本文中提及的chrome浏览器,已在上一篇博文中提及,请自行翻阅:http://blog.sina.com.cn/s/blog_6fa5aa4a010136l5.html 在chrome浏览器中,可以利用F12键审查元素的功能查出原视频或音乐的源地址,可以通过源地址下载下来 先说抓取视频的方法: 1.打开视频地址,如:http://www.tudou.com/albumplay/BDG9NP__

python学习笔记——爬虫中提取网页中的信息

1 数据类型 网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据 常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据 是结构化数据的一种形式,并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层.因此,它也被称为自描述的结构.常见的半结构数据有HTML,XML和JSON等,实际上是以树或者图的结构来存储的. <person> <name>A</name> &l