网页采集利器 phpQuery

2012-02-28 11:43:24| 分类： php|举报|字号订阅

在网页采集的时候，通常都会用到正则表达式。但是有时候对于正则不太好的同学，比如我，那就杯具了。。如今google的项目里有个phpQuery , 顾名思义query，完全类似于jquery的语法，但这是服务器端的，总体来说就是可以用php来直接采集对应的网页内容了，真的是太方便了, 它让一切变得可能......

phpQuery is a server-side, chainable, CSS3 selector driven Document Object Model (DOM) API based on jQuery JavaScript Library.

Library is written in PHP5 and provides additional Command Line Interface (CLI).

项目下载地址：http://code.google.com/p/phpquery/

如果你使用过jQuery，你会发现这一切是如此的相象。

如何快速方便的获取到网页的 title?

如果是取得某个class的内容呢？

时间： 2024-10-12 16:49:38

网页采集利器 phpQuery的相关文章

分享一个近期写的简单版的网页采集器

分享一个近期写的简单版的网页采集器功能特点: 1.可通过配置,保存采集规则. 2.可通过采集规则,进行数据采集. 3.可分页,分关键字,进行采集. 4.可保存数据至数据库,文本中. ........... 功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发. 我先上个图让大家一睹为快吧: 首先看看页面,我们要采集这个网站的文章接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集.

一大波可视化网页采集完整过程记录新手也能一看就会

这几年工作中经常用到各种各样的网页爬虫,过年期间整理了一下,把一些比较实用的采集过程贴成动态GIF图片小视频,供以后自己使用.也希望方便到大家. 这里以八爪鱼为演示,没接触过可视化网页采集的话,不妨跟着动图动手做一做,理解起来更容易些. 下面都是些耗时在1~2分钟左右的演示,包括完整的规则配置过程.实时运行效果.和用代码实现爬虫相比,可视化的优点就是省时间,不是特别麻烦的情况,一般几分钟做出来很正常.下面开始: 先来做一个百度搜索结果的爪取规则:* 点击查看百度某关键词所有搜索结果爪取演示这个规

小白30分钟学会网页采集基础教程

首先,以某个多页(需要自动翻页)表格数据的采集为例,先演示一次网页采集的完整的过程: 点击从头播放完整动图演示这里使用的是八爪鱼,依次点击表格某一行的每个字段,可以自动识别出其他所有数据行,并自动创建循环列表:点击翻页按钮,选择"循环点击下一页"动作,就能自动创建翻页循环. 网页信息爪取相关的工具有很多,有需要代码配合使用的,也有几乎不用代码的.其实实现网页采集所用的代码越少,效率越高,维护起来越简单.今天以八爪鱼为例,演示这个工具的一些基础知识: 1:基础操作1.1 新建任务点击

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

来源:脚本之家 http://www.jb51.net/yunying/28470.html 下面的这些方法是可以标本兼治的:1.限制IP地址单位时间的访问次数分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了. 弊端:一刀切,这同样会阻止搜索引擎对网站的收录适用网站:不太依靠搜索引擎的网站采集器会怎么做:减少单位时间的访问次数,减低采集效率 2.屏蔽ip 分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可

PHP采集利器：Snoopy 试用心得

Snoopy.class.php下载 Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单.Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持. 一.Snoopy的一些特点: 1.抓取网页的内容 fetch 2.抓取网页的文本内容 (去除HTML标签) fetchtext 3.抓取网页的链接,表单 fetchlinks fetchform 4.支持代理

VBS做网页采集（转载）

一.vbs 解析 html 文档原文地址:http://www.cnblogs.com/52cik/p/vbs-parse-html.html 关于VBS采集,网上流行比较多的方法都是正则,其实 htmlfile 可以解析 html 代码,但如果 designMode 没开启的话,有时候会包安全提示信息. 但是开启 designMode (@预言家晚报分享的方法) 的话,所有js都不会被执行,只是干干净净的dom文档,所以在逼不得已的情况下开启 designMode 一般情况保持默认

手机网页调试利器： Chrome

新开发的网页需要在手机或是模拟机上运行测试, 可以借助 Chrome提供的手机网页预览程序进行简单调试.查看制作的网页是否能够适合各种手机型号使用. 下面所以下如何使用Chrome调试多类型手机网页. 首先下载Chrome 浏览器. 在你要调试的网页或是本地页面中.按F12 打开调试器.(即开发者模式) //==============================================

C#网页采集数据的几种方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)

获取网页数据有很多种方式.在这里主要讲述通过WebClient.WebBrowser和HttpWebRequest/HttpWebResponse三种方式获取网页内容. 这里获取的是包括网页的所有信息.如果单纯需要某些数据内容.可以自己构造函数甄别抠除出来!一般的做法是根据源码的格式,用正则来过滤出你需要的内容部分. 一.通过WebClient获取网页内容这是一种很简单的获取方式,当然,其它的获取方法也很简单.在这里首先要说明的是,如果为了实际项目的效率考虑,需要考虑在函数中分配一个内存区域.

PHP采集利器：根据开始字符串和结束字符串截取需要的采集内容数据

function strCutByStr(&$str, $findStart, $findEnd = false, $encoding = 'utf-8'){ if(is_array($findStart)){ if(count($findStart) === count($findEnd)){ foreach($findStart as $k => $v){ if(($result = strCutByStr($str, $v, $findEnd[$k], $encoding)) !==