php采集类库：Snoopy.class.php

Snoopy的一些特点：
抓取网页的内容 fetch
抓取网页的文本内容 (去除HTML标签) fetchtext
抓取网页的链接，表单 fetchlinks fetchform
支持代理主机
支持基本的用户名/密码验证
支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
支持浏览器重定向，并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择

参考文献：
1、snoopy（强大的PHP采集类）详细介绍：http://www.9it.me/article-33.html
2、php的Snoopy类：http://www.cnblogs.com/meteoric_cry/archive/2011/05/10/2042512.html

时间： 2024-12-24 13:16:29

php采集类库：Snoopy.class.php的相关文章

ThinkPHP Http工具类（用于远程采集远程下载） phpSimpleHtmlDom采集类库_Jquery筛选方式使用phpQuery轻松采集网页内容

[php]代码库 view sourceprint? <?php // +---------------------------------------------------------------------- // | ThinkPHP [ WE CAN DO IT JUST THINK IT ] // +---------------------------------------------------------------------- // | Copyright (c) 200

Excel催化剂开源第41波-网抓网络采集类库及工具分享

在VBA开发网抓程序中,会用到xmlhttp/winHttp.winHttprequest.5.1等组件,当时笔者也是这样进入了网抓领域的,这些都是非常过时的东西,在.Net的开发中,有大量的更好用的轮子使用,在Excel催化剂开发过程中,也会用到,在此向大家简单分享,希望对VBA转VSTO开发群体有所帮助. 微软原生自带类库 HttpRequest类库在.Net4.0的框架上,只能用这个类库,在更高的框架.Net 4.5中,可以用HttpClient,比HttpRequest更高级的更易使用

PHP_Zend_Dom_Query_QUERY采集类库_资料

$cateHtml = new Zend_Dom_Query($cateCon);//实例Zend_Dom_Query类 $cateBlock=$cateHtml->query('#nav_body .specialLi .specialNav a');//返回Zend_Dom_Query_Result类 Zend_Dom_Query_Result方法说明 $cateBlock->rewind()->nodeValue;//重置指针,返回第一个DOM$cateBlock->curr

开源爬虫汇总表，83款网络爬虫开源软件

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示.虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型.复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎. 开源爬虫汇总表开发语言软件名称软件介绍许可证 Java Arachnid 微型爬虫框架,含有一个小型HTML解析器 GPL crawlzilla 安装简易,拥有中文分词功能 Apache2 Ex-Crawler 由守护进程执行,使用数据库存储网页信息

爬虫_83款网络爬虫开源软件

1.http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web... 更多Nutch信息最近更新:[每日一博]Nu

83款网络爬虫开源软件

1.http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web... 更多Nutch信息最近更新:[每日一博]Nu

平院微信图书馆——中转图书查询

2014年做一个微信公众平台--平院小助手(pdsuhelp),想做一款产品,推广平台,于是便做了这个平院微信图书馆,托管于BAE(项目地址:pdsuhelp.duapp.com/lt),目前只能提供查询功能,至于续借等功能,以后看情况添加! 项目工作流程: 1.获取图书馆查询图书地址,通过get传参,替换word的参数 2.抓取图书列表页内容,并显示,抓取每本图书详情页面超链接,并加上a 标签 ,目前只能抓取第一页 3:点击进入图书详情页面,抓取主要信息,书名,书放的位置. 主要技术: 1:;

snoopy采集

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单.Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持.官方:http://sourceforge.net/projects/snoopy/ 一.Snoopy的一些特点: 1.抓取网页的内容 fetch 2.抓取网页的文本内容 (去除HTML标签) fetchtext 3.抓取网页的链接,表单 fetc

使用Snoopy进行模拟登陆、采集

Snoopy是一个使用PHP写的采集类,使用了一下发现功能比较强大,几乎可以模拟浏览器的所有行为,可以实现的功能有: 比起使用curl,fsockopen等函数来说方便很多,下面总结一下这个类一些属性与方法的作用. 方法: fetch($url) 该方法用于抓取网页内容,类似于file_get_contents submit($posturl,$params,$files) 该方法提交表单数据,第二个参数是一个一维数组,例如array('user'=>'zhangsan','pwd'=>

猜你喜欢

java 虚拟机学习笔记第二章走进java

java 获得获得认可的原因结构严谨.面向对象一次编写到处运行相对安全的内存管理和访问机制避免绝大部分的内存泄露和指针越界运行时编译即优化 jdk是用于支持java程序开发的最小环境时间 ...

160229-02、Sublime Text 3 快捷键总结

选择类 Ctrl+D 选中光标所占的文本,继续操作则会选中下一个相同的文本. Alt+F3 选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑.举个栗子:快速选中并更改所有相同的变量名.函数 ...

java 线程---成员变量与局部变量

关于成员变量与局部变量: 如果一个变量是成员变量,那么多个线程对同一个对象的成员变量进行操作时,他们对该成员变量是彼此影响的(也就是说一个线程对成员变量的改变会影响到另一个线程) . 如果一个变量是局 ...

SQLite基本操作

1.创建一个数据库,并且打开 SQLite db = OpenOrCreateDatabase("user.db",MODE_PRIVATE,null); 2.创建一个表 db.e ...

信息过滤与反垃圾

1.文本匹配,敏感词过滤(正则表达式,及其他各种算法) 2.分类算法 3.黑名单(布隆过滤算法等)

PHP脚本的执行时间如何分段计算出来

很多时候我们需要计算PHP脚本的执行时间,来获知脚本的效率等问题.比如有一个一大段的PHP脚本,我们就需要一个分段获取脚本执行时间的方法.先介绍要用到的函数: // 计时函数 function run ...

11-28--订餐系统项目跟进

跟进结果: 经过这几天我们组的成员反复讨论,反复修改,每个人各司其职,终于也把订餐系统的登录界面功能实现,界面虽然并不是特别美观,但后续相信会有更好的改进. 在这一功能中,我们实现用户的登录,还有用户 ...

javascript跨域请求解决方法总结

javascript中有同源策略,javascript存在跨域通信的问题.典型例子如:Ajax无法直接请求跨域的普通文件,存在跨域无权限访问的问题. 几种常见的解决方法: JSONP 2.HTML5 ...

Writing Portable Programs

Size of Data Types Always use sizeof() to get the size of types(sizeof(char), sizeof(short), sizeof( ...

fmt.Sprintf strconv.Itoa 效率实验

1 package main 2 3 import ( 4 "fmt" 5 "strconv" 6 "time" 7 ) 8 9 const ...

TOJ 4689: Sawtooth

4689: Sawtooth Time Limit(Common/Java):1000MS/3000MS Memory Limit:65536KByteTotal Submit: 26 ...

nginx转发及后端服务器获取真实client的IP

针对nginx的模块介绍可以查阅wiki:http://wiki.nginx.org/Modules 常用模块:HTTP Core Proxy Rewrite Upstream 原理:squid,va ...

反-反汇编 & 混淆 #1：苹果没有遵循自己制定的Mach-O规范？

原文地址:http://reverse.put.as/2012/02/02/anti-disassembly-obfuscation-1-apple-doesnt-follow-their-own-m ...

linuxssh清除磁盘大文件

%E5%9B%B0%E6%89%B0%E4%B8%89%E5%A4%A9%E7%9A%84%E9%97%AE%E9%A2%98%E6%B1%82%E5%A4%A7%E7%A5%9E%E5%B8%AE% ...

关于hr标签兼容个浏览器的代码

hr标签,相信大家都能熟悉,我们一般用它来产生横线的效果.我们可以对它定义“颜色”.“高度”.“宽度”.“边框”等样式. 在此只讨论“颜色”和“边框”对于不同版本浏览器的兼容性. 颜色: 火狐.IE7 ...

java编程:输入一串小写字符串，统计每个字母出现的次数

*需求:统计字符串中每个字母: * 说明:编写程序,提示用户输入一个字符串, * 然后统计字符串中每个字母出现的个数,忽略字母的大小写. * * 原理: * 1.使用String类中的toLowerC ...

开源免费 java CMS - FreeCMS2.0 会员头像设置

项目地址:http://www.freeteam.cn/ 头像设置从FreeCMS 1.7开始支持从右侧管理菜单点击头像设置进入. 选择图片文件,点击"上传". 调整好图片后点 ...

解决ubuntu svn checkout https问题

up vote20down voteaccepted You can specify a username using svn co --username your_name https://svn. ...

iOS开发之UITabBarController

1.概述跟UINavigationController类似,UITabBarController也可以轻松地管理多个控制器,轻松完成控制器之间的切换,典型例子就是QQ.微信等应用. 2.UITabB ...

通俗理解正则表达式

这不是入门级文章,但如果你对正则表达式有了解,或使用过,也许能帮助你快速回忆.阅读此文需要你之前使用过正则表达式或者有些了解,因为我没有写很多的例子.总结正则表达式,只是因为个人在几年的积累之后,想通 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.