正则匹配抓取input 隐藏输入项和 <td>标签内的内容

这里不多作解释了，只要提供方法，如果想了解正则匹配，就去百度。

第一条是，匹配出所有的隐藏输入域

 1 $patern = "/<input(.*?)type=\"hidden\"(.*?)name=\"(.*?)\"(.*?)value=\"(.*?)\"(.*?)>/im";
 2             if(preg_match_all($patern,$content,$hidden_match)){
 3
 4                 for($i=0;$i<count($hidden_match[1]);$i++){
 5                     for($j=0;$j<6;$j++){
 6                         echo "$i";echo "+";echo $j;echo "->";echo $hidden_match[$i][$j];
 7
 8                     }
 9                 }
10             }

第二条是匹配所有 td，其他标签的匹配，到这里，大家可以依样画葫芦了。

上面的 $patern=‘%<td.*?>(.*?)</td>%sim‘;

OK，打完收工

时间： 2024-08-01 22:33:57

正则匹配抓取input 隐藏输入项和 <td>标签内的内容的相关文章

网页调试技巧：抓取马上跳转的页面POST信息或者页面内容

http://www.qs5.org/Post/625.html 网页调试技巧:抓取马上跳转的页面POST信息或者页面内容 2016/02/02 | 心得分享 | 0 Replies 有时候调试网页或者抓别人网页的POST包的时候. 总会遇到这样的尴尬,我们需要抓取POST提交的信息. 或者获取POST完成页面返回的代码. 但是,目标页却马上就跳转了,导致,还没来得及Esc呢,页面就已经刷新了. 这种情况,起码谷歌浏览器的F12是搞不了了... 比如下面的情况我把密码放在被Post页面的源码

用正则表达式抓取网页中的ul 和 li标签中最终的值！

获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1"; string htmlStr = null; for (int i = 0; i < 10; i++) { try { System.Net.Http

CSS标签内多余内容隐藏

CSS: 1 <style> 2 .mazey{width:100px;} 3 .nowrap{overflow:hidden;text-overflow:ellipsis;white-space:nowrap;} 4 </style> HTML: 1 <div class="mazey nowrap">http://www.mazey.net/baby/blog/#http://www.mazey.net/baby/blog/#http://www

php正则匹配html中的带class的div，选取其中的内容

<div class="chartInfo"> <div class="line"></div> <div class="tideTable"> <strong>潮汐表</strong><span style="font-size:12px;font-weight:lighter;margin-left:-20px;">数据仅供参考</s

selenium抓取元素排除某个特定的class标签

排除某个因素,第一优选想到正则表达式,无奈折腾半天没有成功,感觉是selenium对元素的attrs按re search在操作,$对字符串末尾检测都没什么用. BeautifulSoup可以用element['class']输出元素的class进行检测,但是BeautifulSoup对象不能再进行click操作,不符合期望.selenium没有这样的语法,通过xpath进行选择: itemList = driver.find_elements_by_xpath('//div[@id = "cho

php正则表达式，在抓取内容进行匹配的时候表现不稳定

最近做了一个抓取内容的程序,使用php的正则表达式对抓取的内容进行匹配,当进行大量匹配运算的时候,发现偶尔会出现匹配失败的情况.检查不出任何原因. 匹配失败导致匹配结果为空,最终导致写入数据库失败. 无奈,将所有的正则匹配改为 strpos 和 substr的方式进行获取需要的内容,问题消失. 很奇怪,不知道有没有人碰到类似的问题. 还是因为 preg_math 天生的缺陷导致的??

php爬虫抓取信息及反爬虫相关

58爬虫了百姓,赶集和58互爬,最后各种信息相同,都是爬虫后的数据库调用,潜规则啊,几家独大还暗中各种攻击,赶驴网的幽默事例我不想多评价.这个时代是砸.钱*养.钱的时代,各种姚晨杨幂葛优,各种地铁公车广告,各种卫视广告,铺天盖地~~~ 来谈php爬虫抓取信息~~ php爬虫首推Curl函数了,先来认识下它. 0x01.curl扩展的安装: 1.确保php子文件夹ext里面有php_curl.dll(一般都有的,一般配置时候会设置环境变量的) 2.将php.ini里面的;extension=php

分布式爬虫：使用Scrapy抓取数据

分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 官方主页: http://www.scrapy.org/ 中文文档:Scrapy 0.22 文档 GitHub项目主页:https://github.com/scrapy/scrapy Scrapy 使用了 Twisted 异步网络库来处理网络通讯.整体架构大致如下(注:图片来自

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相