php 模拟登陆(不带验证码)采集数据

这里模拟表单登陆窗口

提交代码部分

1,生成session_id保存到 cookie

$login_url = ‘http://www.96net.com.cn/Login.php‘;
$cookie_file = dirname(__FILE__)."/pic.cookie";

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $login_url);

curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

curl_exec($ch);

curl_close($ch);

2,处理提交的登陆的数据

if($_POST[‘acti‘]==‘tj‘){

    $userid=$_POST[‘userid‘];    $password=$_POST[‘password‘];

$_post_url = ‘http://www.96net.com.cn/login.php?action=Login‘;     //登录表单提交地址

$post = "userid=$userid&password=$password";

$ch12 = curl_init();

curl_setopt($ch12, CURLOPT_URL, $_post_url);

curl_setopt($ch12, CURLOPT_HEADER, false);

curl_setopt($ch12, CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch12, CURLOPT_POSTFIELDS, $post);         //提交方式为post

curl_setopt($ch12, CURLOPT_COOKIEFILE, $cookie_file);

curl_exec($ch12);

curl_close($ch12);

//以上表示登陆成功   //以下开始采集数据

$data_url19 = "http://www.96net.com.cn/xxxxxxx.php?id=10";     //数据所在地址

$ch19 = curl_init();

curl_setopt($ch19, CURLOPT_URL, $data_url19);

curl_setopt($ch19, CURLOPT_HEADER, false);

curl_setopt($ch19, CURLOPT_HEADER, 0);

curl_setopt($ch19, CURLOPT_RETURNTRANSFER, true);

curl_setopt($ch19, CURLOPT_COOKIEFILE, $cookie_file);

$content12 = curl_exec($ch19);

file_put_contents("./content0/31-35/net" . $k . ".txt", $content12); //文件存放的位置
}
时间: 2024-08-02 05:50:22

php 模拟登陆(不带验证码)采集数据的相关文章

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

转自原文C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 阅读目录 1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几

爬虫模拟登陆之formdata表单数据

首先HTTP协议是个无连接的协议,浏览器和服务器之间是以循环往复的请求回复来交互的,交互的形式是以文件形式来进行的.比如在chrome开发者工具network中看到了 每一行是一个文件,又文件大小啊,文件类型啊,比如脚本,图片等. 根据协议,把每个文件的内容按照协议格式填入HTTP数据协议结构,其中,对于爬虫模拟登陆来说最重要的是表单数据formdata这个字段 在这我们看到又loginname字段,又password字段,我们看到这都是明码,所以做了遮挡.我们得到了这个,就可以根据字段名称自己

模拟登陆网站,抓去指定数据

今天学校登录学员考试帐号,查看cheng看他们是否录取: 1.数据库导出学员信息 2.帐号批量登录网站 3.帐号批量登录并获取网站成绩信息 HttpServer . 正则表达式 4.根据不同专业的及格线,计算是否及格 引用一个HttpHelper : 建立一个 web.ashx 用来进行登录 string UID = context.Request["UID"]; string PWD = context.Request["PWD"]; string data =

python模拟艺龙网登录带验证码输入

1.使用urllib与urllib2包 2.使用cookielib自动管理cookie 3.360浏览器F12抓信息 登录请求地址和验证码地址都拿到了如图 # -*- coding: utf-8 -*- import urllib2 import urllibimport cookielib ''' 思路: 1.通过cookie对象下载验证码图片到本地 2.手工填写验证码 3.登录 4.拿到返回的登录信息 ''' #将cookie绑定到对象opener,cookie由cookielib自动管理

php curl模拟登陆抓取数据

最近由于项目的需要,需要做数据抓取,也就是用的curl相关的函数库,在这之前还真心没有接触过这么高大上的东西,然后从刚开始到今天才研究curl算是第四天了,写这篇博客记录一下这几天的一个过程,在使用curl模拟登陆抓取数据过程中需要注意的一些事项,以及介绍一款支持跨平台(windows.linux.mac)的抓包软件 charles(这个软件是收费的,但是你不花钱也可以使用) ,想要尽快上手,必须要去熟悉两个东西:http协议.curl的相关参数选项的作用 一.介绍curl 这是curl的维基百

网络爬虫模拟登陆获取数据并解析实战(二)

目录 分析要获取的数据 程序的结构 构建封装数据的model 模拟登陆程序并解析数据 结果展示 分析要获取的数据 下面继续实战,写一个模拟登陆获取汽车之家,用户信息的程序.如果大家对模拟登陆获取数据不太了解,建议看完http://blog.csdn.net/qy20115549/article/details/52249232,我写的这篇含有抓包获取人人网数据的案例程序,研究透之后,再来看这个要轻松很多. 首先,大家打开汽车之家这个网站(http://i.autohome.com.cn/7741

[转载]python实现带验证码网站的自动登陆

    原文地址:python实现带验证码网站的自动登陆作者:TERRY-V 早听说用python做网络爬虫非常方便,正好这几天单位也有这样的需求,需要登陆XX网站下载部分文档,于是自己亲身试验了一番,效果还不错. 本例所登录的某网站需要提供用户名,密码和验证码,在此使用了python的urllib2直接登录网站并处理网站的Cookie. Cookie的工作原理: Cookie由服务端生成,然后发送给浏览器,浏览器会将Cookie保存在某个目录下的文本文件中.在下次请求同一网站时,会发送该Coo

php使用curl模拟登录带验证码的网站

需求是这样的,需要登录带验证码的网站,获取数据,但是不可能人为一直去记录数据,想通过自动采集的方式进行,如下是试验出来的结果代码!有需要的可以参考下! <?php namespace Home\Controller; use Think\Controller; class LoginController extends Controller { protected $cookieName = array('cookie_verify', 'cookie_verify'); protected $

腾讯微博模拟登陆+数据抓取(java实现)

不多说,贴出相关代码. 参数实体: package token.def; import java.io.Serializable; import java.util.Properties; public class TLoginParams implements Serializable { private static final long serialVersionUID = 6120319409538285515L; private String saltUin; private Stri