[PHP自动化-进阶]004.Snoopy VS CURL 模拟Discuz.net登陆

引言:采集论坛第一步就是要模拟登陆,由于各个站点登录表单各不相同,验证方式又是多种多样,所以直接提交用户名密码到登录页面就比较繁琐。
所以我们采用cookie来模拟登陆无疑是最佳捷径。

今天我们要处理的是模拟Discuz.net登陆:

切入主题



下面,我们通过三步骤来实现模拟登录操作,1.获得登录cookie,2.模拟请求,3.跳至目标实际操作页面。

准备工作

首先,我们手工登录一下,记录一下cookie。

dznet_cookietime=2592000;dznet_onlineusernum=7816;dznet_sid=QtlC87;dznet_auth=6bbeCQrzGv4eliNMLgU%2FlGZSpzbrsauGO1l0OBp6VQw5p0bcEg0xd4slYCM2ks%2FL0YCVYSO7XP2z8GMaxkPDUbXZCWft;checkpm=1

(目前主流浏览都有插件查看cookie)

P1.采用snoopy模拟登录

// 载入类库
include("snoopy.php");
// 实际对象
$snoopy = new Snoopy;

// 设置浏览器引擎
// (说明:是浏览器信息,前面你用什么浏览器查看Cookie,就用那个浏览器的信息[PS: $_SERVER可以查看到浏览器的信息])
$snoopy->agent   = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; TheWorld)";
// 设置来源页面
$snoopy->referer = "http://www.discuz.net/";
// 设置Cookie
$snoopy->rawheaders["COOKIE"]= "dznet_cookietime=2592000;dznet_onlineusernum=7816;dznet_sid=QtlC87;dznet_auth=6bbeCQrzGv4eliNMLgU%2FlGZSpzbrsauGO1l0OBp6VQw5p0bcEg0xd4slYCM2ks%2FL0YCVYSO7XP2z8GMaxkPDUbXZCWft;checkpm=1";
// 抓取发贴页面
$snoopy->fetch("http://www.discuz.net/post.php?action=newthread&fid=2&extra=page%3D1");
// 输出页面内容
echo $snoopy->results; 

P2.采用curl模拟登录

// 登录网址
$url       = "http://www.discuz.net/";
// 浏览器引擎
$useragent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; TheWorld)";
// Cookie
$cookie    = "dznet_cookietime=2592000;dznet_onlineusernum=7816;dznet_sid=QtlC87;dznet_auth=6bbeCQrzGv4eliNMLgU%2FlGZSpzbrsauGO1l0OBp6VQw5p0bcEg0xd4slYCM2ks%2FL0YCVYSO7XP2z8GMaxkPDUbXZCWft;checkpm=1";

// 初始化CURL对象
$ch= curl_init();

// 设置请求URL
curl_setopt($ch, CURLOPT_URL, $url);
// 设置Cookie
curl_setopt($ch, CURLOPT_COOKIE, $cookie);
// 设置来源页面
curl_setopt($ch, CURLOPT_REFERER, "http://www.discuz.net/index.php");
// 设置返回响应头信息[无](说明:该设置通常是需要加上的,用于制作下一次请求的肥料。)
curl_setopt($ch, CURLOPT_HEADER, false);
// 设置不输出到浏览器(说明:直接返回字符串,否则直接输出)
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// 设置浏览器引擎
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);

// 执行请求
curl_exec($ch);
// 获得页面内容
$tempCn = curl_multi_getcontent($ch);
// 关闭连接
curl_close($ch);

// 输出页面内容
echo $tempCn;

今天先讲到这里吧!

未完待续……。

本站文章为宝宝巴士 SD.Team原创,转载务必在明显处注明:(作者官方网站:宝宝巴士
转载自【宝宝巴士SuperDo团队】 原文链接: http://www.cnblogs.com/superdo/p/4792805.html

时间: 2024-08-26 00:41:12

[PHP自动化-进阶]004.Snoopy VS CURL 模拟Discuz.net登陆的相关文章

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

php curl模拟qq发送信息

今天没事瞎捣鼓,用curl模拟实现了发送qq与留言功能.比较简单.这里从3gqq入手,原因是3gqq只用验证sid.这样操作起来比较简单. 直接上代码吧.,. 一,发送qq给某人 1 <?php 2 header("Content-type:text/html;charset=utf-8"); 3 $ch = curl_init(); 4 curl_setopt ($ch, CURLOPT_URL, "http://q16.3g.qq.com/g/s?sid=你的sid

php中 curl模拟post发送json并接收json(转)

本地模拟请求服务器数据,请求数据格式为json,服务器返回数据也是json. 由于需求特殊性, 如同步客户端的批量数据至云端, 提交至服务器的数据可能是多维数组数据了.  这时需要将此数据以一定的数据编码方式(json格式)来组织并提交.以便服务器很好地处理. 客户端curl模拟提交代码. 客户端curl模拟提交代码. function http($url, $data = NULL, $json = false) { $curl = curl_init(); curl_setopt($curl

CURL模拟POST请求实例

我们都知道可以通过表单的POST方法来提交数据给服务器,如图: 然后,testPost.php的代码比较简单.只是将接受到的内容打印. 得到这样的结果: 但是,我们能不能通过其他方式来提交数据给到testPost.php呢.是可以的!那就是使用CURL模拟POST提交数据.文件(curlPost.php)代码如图: 最后,我们来访问curlPost.php,也是可以得到相同的数据:

使用curl模拟ip和来源进行网站采集的实现方法

对于限制了ip和来源的网站,使用正常的采集方式是不行的.本文将介绍一种方法,使用php的curl类实现模拟ip和来源,实现采集限制ip和来源的网站. 1.设置页面限制ip和来源访问 server.php <?php $client_ip = getip(); $referer = getreferer(); $allow_ip = '192.168.1.100'; $allow_referer = 'http://www.uxuew.cn'; if($client_ip==$allow_ip &am

php curl模拟登陆抓取数据

最近由于项目的需要,需要做数据抓取,也就是用的curl相关的函数库,在这之前还真心没有接触过这么高大上的东西,然后从刚开始到今天才研究curl算是第四天了,写这篇博客记录一下这几天的一个过程,在使用curl模拟登陆抓取数据过程中需要注意的一些事项,以及介绍一款支持跨平台(windows.linux.mac)的抓包软件 charles(这个软件是收费的,但是你不花钱也可以使用) ,想要尽快上手,必须要去熟悉两个东西:http协议.curl的相关参数选项的作用 一.介绍curl 这是curl的维基百

cURL模拟登录教学管理系统

最近在开发微信公众平台,想实现通过微信查询课表的功能.无奈本人业务不精,之前对微信公众平台不是很了解,甚至对PHP都不是很熟练.所以一直不知道怎么解决,在网上查阅了很多资料,收货不是很大,不过至少把原理弄懂了.其实原理很简单,就是利用php的cURL模拟登录技术. cURL是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP.FTP.TELNET等.最爽的是,PHP也支持 cURL 库.在PHP中建立cURL请求的基本步骤: 1.初始化 2.设置变量 3.执行并获取结果 4.

linux curl模拟登录网页

有时在批量抓取网站页面内容时,是需要处于登录状态的,否则无法获取.curl这个强大的工具可以完成这个工作.之前最好也先了解一下http POST方法,网站登录大都是用这个办法. 本文基本上参考这篇文章,来自依云's Blog,是archlinux中文论坛的百合仙子大大写的,他参考的gihub上一个百度网盘资源进行访问的小程序.我只是根据理解改了几个小地方,转载请注明出处 以百度为例 先保存用户变量 $ ACCOUNT=百度帐号 $ PASS=帐号的密码 第一步 访问百度,取得cookie,保存到

php curl模拟post请求提交数据

最近在做校园图书馆图书信息的采集程序,既然是图书馆图书的采集,肯定有提交搜索的页面,无非是post提交,让我想到了curl模拟提交,首先通过firebug进行抓包查询下post提交后的格式如下: txtWxlx=CN&hidWxlx=spanCNLx&txtPY=HZ&txtTm=%D2%F4%C0%D6&txtLx=%25&txtSearchType=1&nMaxCount=100&nSetPageSize=10&cSortFld=%D5%