使用Snoopy进行模拟登陆、采集

Snoopy是一个使用PHP写的采集类，使用了一下发现功能比较强大，几乎可以模拟浏览器的所有行为，可以实现的功能有：

比起使用curl，fsockopen等函数来说方便很多，下面总结一下这个类一些属性与方法的作用。

方法:

fetch($url) 该方法用于抓取网页内容，类似于file_get_contents
    submit($posturl,$params,$files)
该方法提交表单数据，第二个参数是一个一维数组，例如array(‘user‘=>‘zhangsan‘,‘pwd‘=>‘lisi‘)，第
三个参数是可选参数，上传文件时用到，例如array(‘myfile‘ => ‘./images/test.jpg‘)
   fetchlinks($url) 该方法用于获取网页所有链接
    fetchform($url) 该方法用于获取网页上的form表单内容
    fetchtext($url) 该方法用户获取不带标签的网页内容
    submitlinks($posturl,$params) 该方法提交表单数据参数与submit方法相同，不同点是获取到的结果数据是链接
    submittext($posturl,$params) 该方法提交表单数据参数与submit方法相同，不同点是获取到的结果数据是文本数据
    set_submit_multipart() 该方法没有参数，文件上传时有效类似于设置表单中的enctype="multipart/form-data"
    set_submit_normal() 该方法没有参数，相当于设置一个普通表单，不可用户文件
    setcookies() 该方法没有参数，保存响应cookie信息用于下一次请求

常用属性：

$obj->agent = ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25‘;//伪装浏览器
    $obj->rawheaders[‘Cookie‘] = ‘username=zhangsan;password=123456‘;//伪装cookie不能与$obj->cookies同时使用
    $obj->rawheaders[‘X_FORWARDED_FOR‘] = ‘115.47.134.108‘; //伪造IP
    $obj->referer = ‘http://www.com133.com/‘; //伪造来源地址
    $obj->cookies[‘test‘] = ‘zhangsan‘; //伪装cookie 不能与$obj->rawheaders[‘Cookie‘]同时使用
    $obj->results 获取采集结果

下面给出示例代码供参考

<?php
include ‘./Snoopy.class.php‘;
$obj = new Snoopy();
$obj->agent = ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; zh-CN; rv:1.9.2.25) Gecko/20111212 Firefox/3.6.25‘;//伪装浏览器
$obj->rawheaders[‘Cookie‘] = ‘username=zhangsan;password=123456‘;//伪装cookie不能与$obj->cookies同时使用
$obj->referer = ‘http://www.com133.com/‘; //伪造来源地址
//$obj->cookies[‘test‘] = ‘zhangsan‘; //伪装cookie 不能与$obj->rawheaders[‘Cookie‘]同时使用
//POST 数据
$params[‘username‘] = ‘zhangsan‘;
$params[‘password‘] = ‘123456‘;
//上传文件
$obj->set_submit_multipart();
$files = array(‘f‘ => ‘./test.php‘);
$posturl = ‘http://www.lmblog.com/snoopy/test.php‘;
//$obj->fetch($posturl);//抓取网页内容 get方式
//模拟表单提交
$obj->submit($posturl,$params,$files);//第三个参数是可选参数,如果不上传文件无需该参数
//$obj->submitlinks($posturl,$params);//获取提交或的链接
$obj->setcookies();//保存响应cookie信息用于下一次请求
print_r($obj->results);//获取结果
?>

Snoopy类及演示文件下载

时间： 2024-10-14 10:45:14

使用Snoopy进行模拟登陆、采集

使用Snoopy进行模拟登陆、采集的相关文章

PHP实现curl和snoopy类模拟登陆方法

22.天眼查cookie模拟登陆采集数据

php模拟登陆的两种实现方法分析

php爬虫（curl）模拟登陆获取cookie，然后使用cookie查看个人中心

PHP CURL模拟登陆

python爬虫模拟登陆校园网-初级

模拟登陆国内著名知识交流网站

模拟登陆、Cookie传递

Python——新浪微博爬虫之模拟登陆