php采集类库:Snoopy.class.php

Snoopy的一些特点:
抓取网页的内容 fetch
抓取网页的文本内容 (去除HTML标签) fetchtext
抓取网页的链接,表单 fetchlinks fetchform
支持代理主机
支持基本的用户名/密码验证
支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
支持浏览器重定向,并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择

参考文献:
1、snoopy(强大的PHP采集类) 详细介绍:http://www.9it.me/article-33.html
2、php的Snoopy类:http://www.cnblogs.com/meteoric_cry/archive/2011/05/10/2042512.html

时间: 2024-09-29 18:03:27

php采集类库:Snoopy.class.php的相关文章

ThinkPHP Http工具类(用于远程采集 远程下载) phpSimpleHtmlDom采集类库_Jquery筛选方式 使用phpQuery轻松采集网页内容

[php]代码库 view sourceprint? <?php // +---------------------------------------------------------------------- // | ThinkPHP [ WE CAN DO IT JUST THINK IT ] // +---------------------------------------------------------------------- // | Copyright (c) 200

Excel催化剂开源第41波-网抓网络采集类库及工具分享

在VBA开发网抓程序中,会用到xmlhttp/winHttp.winHttprequest.5.1等组件,当时笔者也是这样进入了网抓领域的,这些都是非常过时的东西,在.Net的开发中,有大量的更好用的轮子使用,在Excel催化剂开发过程中,也会用到,在此向大家简单分享,希望对VBA转VSTO开发群体有所帮助. 微软原生自带类库 HttpRequest类库 在.Net4.0的框架上,只能用这个类库,在更高的框架.Net 4.5中,可以用HttpClient,比HttpRequest更高级的更易使用

PHP_Zend_Dom_Query_QUERY采集类库_资料

$cateHtml = new Zend_Dom_Query($cateCon);//实例Zend_Dom_Query类 $cateBlock=$cateHtml->query('#nav_body .specialLi .specialNav a');//返回Zend_Dom_Query_Result类 Zend_Dom_Query_Result方法说明 $cateBlock->rewind()->nodeValue;//重置指针,返回第一个DOM$cateBlock->curr

开源爬虫汇总表,83款 网络爬虫开源软件

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示.虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型.复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎. 开源爬虫汇总表 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型HTML解析器 GPL crawlzilla 安装简易,拥有中文分词功能 Apache2 Ex-Crawler 由守护进程执行,使用数据库存储网页信息

爬虫_83款 网络爬虫开源软件

1.http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web... 更多Nutch信息 最近更新:[每日一博]Nu

83款 网络爬虫开源软件

1.http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web... 更多Nutch信息 最近更新:[每日一博]Nu

平院微信图书馆——中转图书查询

2014年做一个微信公众平台--平院小助手(pdsuhelp),想做一款产品,推广平台,于是便做了这个平院微信图书馆,托管于BAE(项目地址:pdsuhelp.duapp.com/lt),目前只能提供查询功能,至于续借等功能,以后看情况添加! 项目工作流程: 1.获取图书馆查询图书地址,通过get传参,替换word的参数 2.抓取图书列表页内容,并显示,抓取每本图书详情页面超链接,并加上a 标签 ,目前只能抓取第一页 3:点击进入图书详情页面,抓取主要信息,书名,书放的位置. 主要技术: 1:;

snoopy采集

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单.Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持.官方:http://sourceforge.net/projects/snoopy/ 一.Snoopy的一些特点: 1.抓取网页的内容 fetch 2.抓取网页的文本内容 (去除HTML标签) fetchtext 3.抓取网页的链接,表单 fetc

使用Snoopy进行模拟登陆、采集

Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有: 比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用. 方法: fetch($url) 该方法用于抓取网页内容,类似于file_get_contents     submit($posturl,$params,$files) 该方法提交表单数据,第二个参数是一个一维数组,例如array('user'=>'zhangsan','pwd'=>