(转)PHP正则表达式匹配嵌套HTML标签的方法和技巧

正则表达式是一个非常有用的编程技能。一般来说,简单的抓取一个HTML页面的某一条信息,比如<title>标题</title>,是很容易实现的。但是,我们往往要抓取某一个列表页面里的多个重复的<div></div>块里的特定内容,并且<div></div>块还有嵌套的使用,我们抓取的则是每个重复<div></div>块里的多个信息。同时,网页源文件不同于一般的字符串,其还存在大量的回车、换行和制表符,这些都造成了匹配失败。而初学者往往无法判断到底是哪个环节出现了问题,并且看到高度技巧化的正则表达式会感到非常沮丧,从而导致放弃问题的解决。

经过笔者多日的研究,终于摸索出以下方法和技巧,欢迎大家交流指正。

请看如下注意点和步骤:

1.注意/一定要被转义成\/,否则会报错

preg_match_all() [function.preg-match-all]: Unknown modifier

2.正则表达式用单引号‘和/作为开始和结束的标界,比如‘/reg partten/‘,采用这样的写法,正则表达式里的双引号"不必转义

比如,

$partten=‘/<div class="goods_item"><a href="([^<>]+)" target="_blank"><img data-ks-lazyload="([^<>]+)" alt="([^<>]+)" width="" height=""\/>/‘;

3.需要先去除所有的换行符、制表符、回车等等,对于便于阅读的html源文件由于上述符号的存在会造成无法匹配。

$str=preg_replace("/[\t\n\r]+/","",$str);

4.我们感兴趣的匹配信息,通常是html元素中的属性的值,因此要去除<>,否则只会匹配最后一条之前的全部信息。

比如,对于$string="<div><a href=“1.jpg”></a></div><div><a href=“2.jpg”></a></div><div><a href=“3.jpg”></a></div>",

$partten=‘/<div><a href=“(.+)”/‘;的匹配结果是:1.jpg”></a></div><div><a href=“2.jpg”></a></div><div><a href=“3.jpg”></a></div>

这是因为,上述给出的正则表达式确实没有限定匹配的范围只是第一个超链接<a href=“1.jpg”></a>。

因此,要想匹配上述三个超链接的 href属性,需要将上述匹配限定在<a href=“1.jpg”>里面,方法也很简单,将(.+)换成([^<>]+),即可。也就是说,这个匹配不包含下一个出现<>的地方,从而将匹配限定在同一个html标签内

做到以上几点,就可以完全无视html标签嵌套不嵌套的问题,从而抓取到一个页面所有的div重复块中我们感兴趣的内容,下附一例。

 1 <?
 2 //被匹配的html代码
 3 $html=‘
 4 <div class="goods">
 5     <a href="http://url1111" target="_blank">
 6         <img data-ks-lazyload="http://1111.jpg" alt="alt1111" width="" height=""/>
 7     </a>
 8 </div>
 9 <div class="goods">
10     <a href="http://url2222" target="_blank">
11         <img data-ks-lazyload="http://2222.jpg" alt="alt2222" width="" height=""/>
12     </a>
13 </div>
14 <div class="goods">
15     <a href="http://url3333" target="_blank">
16         <img data-ks-lazyload="http://3333.jpg" alt="alt3333" width="" height=""/>
17     </a>
18 </div>‘;
19
20 //去掉换行、制表等特殊字符,可以echo一下看看效果
21 $html=preg_replace("/[\t\n\r]+/","",$html);
22
23 //匹配表达式,注意两点,一是包含在‘/ /‘里面,再就是/要做转义处理成\/
24 $partern=‘/<div class="goods"><a href="([^<>]+)" target="_blank"><img data-ks-lazyload="([^<>]+)" alt="([^<>]+)" width="" height=""\/><\/a><\/div>/‘;
25
26 //匹配结果
27 preg_match_all($partern,$html,$result);
28
29 //打印结果
30 var_dump($result);
31 ?>

  

输出结果,一共有4个子数组,第一个子数组是匹配到的所有的项,后面三个子数组是我们匹配表达式里的三个匹配项:

 1 array(4) {
 2   [0]=>
 3   array(3) {
 4     [0]=>
 5     string(144) "<div class="goods"><a href="http://url1111" target="_blank"><img data-ks-lazyload="http://1111.jpg" alt="alt1111" width="" height=""/></a></div>"
 6     [1]=>
 7     string(144) "<div class="goods"><a href="http://url2222" target="_blank"><img data-ks-lazyload="http://2222.jpg" alt="alt2222" width="" height=""/></a></div>"
 8     [2]=>
 9     string(144) "<div class="goods"><a href="http://url3333" target="_blank"><img data-ks-lazyload="http://3333.jpg" alt="alt3333" width="" height=""/></a></div>"
10   }
11   [1]=>
12   array(3) {
13     [0]=>
14     string(14) "http://url1111"
15     [1]=>
16     string(14) "http://url2222"
17     [2]=>
18     string(14) "http://url3333"
19   }
20   [2]=>
21   array(3) {
22     [0]=>
23     string(15) "http://1111.jpg"
24     [1]=>
25     string(15) "http://2222.jpg"
26     [2]=>
27     string(15) "http://3333.jpg"
28   }
29   [3]=>
30   array(3) {
31     [0]=>
32     string(7) "alt1111"
33     [1]=>
34     string(7) "alt2222"
35     [2]=>
36     string(7) "alt3333"
37   }
38 }

原文:http://blog.csdn.net/donglynn/article/details/35788879

时间: 2024-08-29 05:29:40

(转)PHP正则表达式匹配嵌套HTML标签的方法和技巧的相关文章

PHP正则表达式匹配嵌套HTML标签的方法和技巧

转载请注明出处:http://blog.csdn.net/donglynn/article/details/35788879 正则表达式是一个非常有用的编程技能.一般来说,简单的抓取一个HTML页面的某一条信息,比如<title>标题</title>,是很容易实现的.但是,我们往往要抓取某一个列表页面里的多个重复的<div></div>块里的特定内容,并且<div></div>块还有嵌套的使用,我们抓取的则是每个重复<div&g

Java/Js下使用正则表达式匹配嵌套Html标签

转自:http://www.jb51.net/article/24422.htm 以前写过一篇文章讲解如何使用正则表达式完美解决Html嵌套标签的匹配问题(使用正则表达式匹配嵌套Html标签),但是里头用到了平衡组这样的高级特性,貌似只有DotNet还有Perl正则引擎支持,因此通用性不高. 通用 HTML 标签区配正则 最近看网站日志,发现有人在博客上转了我不知道几年前写的一个匹配 HTML 标签的正则,刚好最近也在做一些相关的事情,顿时来了兴趣.就拿回来改改,成了下面这样,可能会有一些 ca

[转]使用正则表达式匹配嵌套Html标签

原文链接 https://msdn.microsoft.com/zh-cn/ff686933.aspx 本文来自Kevin Yang博客 作者:Kevin Yang 概述 正则表达式是做文本解析工作必不可少的技能.如Web服务器日志分析,网页前端开发等.很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍.例如统计代码行数,只需一个正则就搞定.嵌套Html标签的匹配是正则表达式应用中一个比较难的话题,因为它涉及到的正则语法比较多,也比较难.因此也就更有

【转载】Python使用中文正则表达式匹配指定中文字符串的方法示例

本文实例讲述了Python使用中文正则表达式匹配指定中文字符串的方法.分享给大家供大家参考,具体如下: 业务场景: 从中文字句中匹配出指定的中文子字符串 .这样的情况我在工作中遇到非常多, 特梳理总结如下. 难点: 处理GBK和utf8之类的字符编码, 同时正则匹配Pattern中包含汉字,要汉字正常发挥作用,必须非常谨慎.推荐最好统一为utf8编码,如果不是这种最优情况,也有酌情处理. 往往一个具有普适性的正则表达式会简化程序和代码的处理,使过程简洁和事半功倍,这往往是高手和菜鸟最显著的差别.

正则表达式匹配规则(符号使用方法,实例)

字符 描述 例子 \ 将下一个字符标记为特殊字符.或原义字符.或向后引用.或八进制转义符. \n 表示换行符.\d 匹配 [0-9] 的数字 ^ 匹配输入字符串的开始位置. ^abc 表示匹配有 abc 开头的字符串 $ 匹配输入字符串的结束位置. ^\d$ 表示匹配一个 [0-9] 的数字 * 匹配前面的子表达式零次或多次. zo* 能匹配 z 或者 zoo.* 等价于 {0,}. + 匹配前面的子表达式一次或多次. zo+ 能匹配 zo 或者 zoo,但不能匹配 z.+ 等价于 {1,}.

C# -- 正则表达式匹配字符之含义

原文:C# -- 正则表达式匹配字符之含义 C#正则表达式匹配字符之含义 1.正则表达式的作用:用来描述字符串的特征. 2.各个匹配字符的含义: .   :表示除\n以外的单个字符 [ ]  :表示在字符数组[]中罗列出来的字符任意取单个 |   :表示"或"的意思 ()  :表示改变优先级或"提取组" *   :限定前面的表达式出现0次或多次 +   :限定前面的表达式出现1次或多次 ?  :限定前面的表达式出现0次或1次 ^   :表示以表达式开头(例:^htt

正则匹配闭合HTML标签(支持嵌套)

任何复杂的正则表达式都是由简单的子表达式组成的,要想写出复杂的正则来,一方面需要有化繁为简的功底,另外一方面,我们需要从正则引擎的角度去思考问题.关于正则引擎的原理,推荐<Mastering Regular Expression>中文名叫<精通正则表达式>.挺不错的一本书. OK,先确定我们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML. 这里面最大的难点就是,Html标签是支持嵌套的,怎么能够找到指定标签相对应的闭合标签呢? 我们可以这样想,先匹配最前

[Python正则表达式] 字符串中xml标签的匹配

现在有一个需求,比如给定如下数据: 2009-2-12 9:22:2 #### valentine s day 2011 #### sex is good for you #### Making love pleasures life genuinely good say researchers does healthy sex life boost mood growing evidence boosts physical increasing longevity reducing risk

匹配html img 标签的正则表达式 java

public static void main(String[] args) { String regex = "<\\s*img(.+?)src=[\"'](.*?)[\"']\\s*/?\\s*>"; Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE); String content = "<img width=\"450\" height=\&q