scrapy formRequest 表单提交

scrapy.FormRequest 主要用于提交表单数据

先来看一下源码

参数:

formdata  (dict or iterable of tuples) – is a dictionary (or iterable of (key, value) tuples) containing HTML Form data which will be url-encoded and assigned to the body of the request.

从官方文档中可以看到默认是 post 请求

怎么用

官方例子:

FormRequest(url="http://www.example.com/post/action",
                    formdata={‘name‘: ‘John Doe‘, ‘age‘: ‘27‘},
                    callback=self.after_post

就是这么简单就发送了一个 post 表单请求, formdata 就是要提交的表单数据。 callback 是指定回调函数,该参数继承于 Request

github登录例子:

class GithubSpider(scrapy.Spider):
    name = ‘github‘
    allowed_domains = [‘github.com‘]
    start_urls = [‘https://github.com/login‘]

    def parse(self, response):
        authenticity_token = response.xpath("//input[@name=‘authenticity_token‘]/@value").extract_first()
        utf8 = response.xpath("//input[@name=‘utf8‘]/@value").extract_first()
        commit = response.xpath("//input[@name=‘commit‘]/@value").extract_first()
        post_data = dict(
            login="your_username",
            password="your_password",
            authenticity_token=authenticity_token,
            utf8=utf8,
            commit=commit
        )
        yield scrapy.FormRequest(
            "https://github.com/session",
            formdata=post_data,
            callback=self.after_login
        )

    def after_login(self,response):
        print(re.findall("your_username",response.body.decode()))

scrapy.FormRequest.from_response

作用:自动的从 response  中寻找form表单(表单action,表单name),并且可以预填充表单认证令牌等(例如Django框架的csrf_token)

定义说明:

怎么用

官方例子:

通常网站通过 <input type="hidden"> 实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充。 使用Scrapy抓取网页时,如果想要预填充或重写像用户名、用户密码这些表单字段,

可以使用 FormRequest.from_response() 方法实现。下面是使用这种方法的爬虫例子

import scrapy

class LoginSpider(scrapy.Spider):
    name = ‘example.com‘
    start_urls = [‘http://www.example.com/users/login.php‘]

    def parse(self, response):
        return scrapy.FormRequest.from_response(
            response,
            formdata={‘username‘: ‘john‘, ‘password‘: ‘secret‘},
            callback=self.after_login
        )

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=scrapy.log.ERROR)
            return

        # continue scraping with authenticated session...

github登录例子

class Github2Spider(scrapy.Spider):
    name = ‘github2‘
    allowed_domains = [‘github.com‘]
    start_urls = [‘https://github.com/login‘]

    def parse(self, response):
        yield scrapy.FormRequest.from_response(
            response, #自动的从response中寻找from表单
            formdata={"login":"your_username","password":"your_password"},
            callback = self.after_login
        )

    def after_login(self,response):
        print(re.findall("your_username",response.body.decode()))

对比两次github的模拟登录例子来看,使用from_response方法可以帮助我们寻找到表单提交的地址,以及预填充认证令牌。

原文地址:https://www.cnblogs.com/tangkaishou/p/10268067.html

时间: 2024-11-02 21:54:24

scrapy formRequest 表单提交的相关文章

Ajax表单提交

jQuery Form插件是一个优秀的Ajax表单插件,可以非常容易地.无侵入地升级HTML表单以支持Ajax.jQuery Form有两个核心方法 -- ajaxForm() 和 ajaxSubmit(), 它们集合了从控制表单元素到决定如何管理提交进程的功能.另外,插件还包括其他的一些方法: formToArray().formSerialize().fieldSerialize().fieldValue().clearForm().clearFields() 和 resetForm()等.

struts2 jsp表单提交后保留表单中输入框中的值 下拉框select与input

原文地址:struts2 jsp表单提交后保留表单中输入框中的值 下拉框select与input jsp页面 1     function dosearch() {2         if ($("#textValue").val() == "") {3                 $("#errortip").html("<font color='#FF0000'>请输入查询内容</font>")

表单提交时如何将错误信息传递到页面中,并且保存原来提交数据

曾经何时,你还有我或许都在困惑,如何方便的将验证不通过的表单信息再返回到前台页面,例如我注册一个账号,辛辛苦苦填写了N多项,一个格式验证没有通过,一切都需要充填,虽然Ajax可以解决这个问题,但是我们总不能把所有表单提交都弄成ajax,更何况有若干人就是没事把javascript给禁止了.哎哎,好了解决方案来了,下面以用户登录为例,说说我的解决方案. 服务器端用nodejs实现: login.html 简单的提交表单 <form action="" id="loginF

关于表单提交的书写

注意form表单提交的action属性写地址的时候,开头不要用"/",因为如果写上"/"的话,系统就会在WEB-INF/views中寻找这个jsp文件的 未完待续...

ajax传递数组、form表单提交对象数组

在JSP页面开发中,我们常常会用到form表单做数据提交,由于以前一直只是使用form表单提交单个对象,只要表单文本域的name值和接收的对象的属性名一致,那么传值就没有什么问题.不过,在前几天的开发任务中,遇到了需要批量传递对象,也就是需要传递对象数组,在此做个总结.今天又遇到需要向后台传递数组,便一并写下来吧. 1.ajax传递普通数组 前台代码 var deleteNum= [];//定义要传递的数组 deleteNum.push("1"); deleteNum.push(&qu

带文件的表单提交

今天用表单提交一个文件到服务器,但服务器始终接收不到上传的文件.最后排除出原因有二: 1 表单需要封装. <form>标签要加上 enctype="multipart/form-data"属性 2 文件选择控件一定要有name和id属性 <form method="post" action="http://www.baidu.com" enctype="multipart/form-data"> <

表单提交中get和post方式的区别

表单提交中get和post方式的区别有5点 1.get是从服务器上获取数据,post是向服务器传送数据. 2.get是把参数数据队列加到提交表单的ACTION属性所指的URL中,值和表单内各个字段一一对应,在URL中可以看到.post是通过HTTPpost机制,将表单内各个字段与其内容放置在HTML HEADER内一起传送到ACTION属性所指的URL地址.用户看不到这个过程. 3.对于get方式,服务器端用Request.QueryString获取变量的值,对于post方式,服务器端用Requ

使用jquery form插件进行异步带文件的表单提交

引入form插件与jquery 的js文件后 获取表单的jq对象 然后.ajaxSubmit提交表单即可 实现添加品牌的异步表单提交 function addBarandImg(formId) { $('#'+formId).ajaxSubmit({ url: '/ProductManage/AddBrand', //data: $("#" + formId).serialize(), type: 'post', dataType: "json", success:

form表单提交无页面刷新(非js)

先看一段代码(PHP例子) 1.表单代码(form.php): <?php header("Content-type: text/html; charset=utf8"); ?> <iframe name="testIframeName" style="display:none;"></iframe> <form target="testIframeName" method="