php正则表达式,在抓取内容进行匹配的时候表现不稳定

最近做了一个 抓取内容的程序,使用php的正则表达式对抓取的内容进行匹配,当进行大量匹配运算的时候,发现偶尔会出现匹配失败的情况。检查不出任何原因。 匹配失败导致匹配结果为空,最终导致写入数据库失败。

无奈,将所有的正则匹配改为 strpos 和 substr的方式进行获取需要的内容,问题消失。

很奇怪,不知道有没有人碰到类似的问题。 还是因为 preg_math 天生的缺陷导致的??

时间: 2024-11-17 19:10:09

php正则表达式,在抓取内容进行匹配的时候表现不稳定的相关文章

第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—

第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲-编写spiders爬虫文件循环抓取内容- 编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数 使用时需要yield Request() parse.urljoin()方法,是urllib库下的方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接 # -*- coding:

Python快速开发分布式搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容

编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数 使用时需要yield Request() parse.urljoin()方法,是urllib库下的方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request

scrapy爬虫成长日记之将抓取内容写入mysql数据库

前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我们日常的实际应用,接下来看下如何将抓取的内容保存在常见的mysql数据库中吧. 说明:所有的操作都是在“scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据”的基础上完成,如果您错过了这篇文章可以移步这里查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据 环

Scrapy+seleninu抓取内容同时下载图片几个问题

使用了Scrapy+Seleninm+Scrapy_redis抓取了详情页的内容和图片,贴出需要完善和出问题的代码,做部分解析和说明. # -*- coding: utf-8 -*-import time; from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Rulefrom scrapy_redis.spiders import RedisCrawlSpider #导入RedisCrawSpide

C#(ASP.net)从其他网站抓取内容并截取有用信息

1. 需要引用的类库 1 2 3 4 using System.Net; using System.IO; using System.Text; using System.Text.RegularExpressions; 2. 获取其他网站网页内容的关键代码 1 2 3 4 5 WebRequest request = WebRequest.Create("http://目标网址.com/"); WebResponse response = request.GetResponse();

Asp 使用 Microsoft.XMLHTTP 抓取网页内容(没用乱码),并过滤需要的内容

Asp 使用 Microsoft.XMLHTTP 抓取网页内容,并过滤需要的内容 Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理,并过滤需要的内容 示例源码: <% Dim xmlUrl,http,strHTML,strBody xmlUrl = Request.QueryString("u") REM 异步读取XML源 Set http = server.CreateObject("Microsoft.XMLHTTP") http.

使用python scrapy框架抓取cnblog 的文章内容

scrapy 的文档请移驾到 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 1.准备工作  安装python .Spyder .scrapy 如果想要数据直接入mysql 还需要安装python的 MySQLdb 依赖包 本人mac操作系统 安装MySQLdb的时候出现了些小问题  最后是重装了openssl 才通过的 Spyder 是编写python的ide 2.新建项目  cd /usr/local/var/ww

如何在PHP里抓取HTTPS内容

最近在研究Hacker News API时遇到一个HTTPS问题.因为所有的Hacker News API都是通过加密的HTTPS协议访问的,跟普通的HTTP协议不同,当使用PHP里的函数file_get_contents() 来获取API里提供的数据时,出现错误,使用的代码是这样的: <?php $data = file_get_contents("https://hacker-news.firebaseio.com/v0/topstories.json?print=pretty&quo

History API使搜索引擎抓取AJAX内容

我一直以为没有办法做到,直到前两天看到了Discourse创始人之一的Robin Ward的解决方法,不禁拍案叫绝. Discourse是一个论坛程序,严重依赖Ajax,但是又必须让Google收录内容.它的解决方法就是放弃井号结构,采用 History API. 所谓 History API,指的是不刷新页面的情况下,改变浏览器地址栏显示的URL(准确说,是改变网页的当前状态).这里有一个例子,你点击上方的按钮,开始播放音乐.然后,再点击下面的链接,看看发生了什么事? 地址栏的URL变了,但是