爬虫2.3-scrapy框架-post、shell、验证码

scrapy框架-post请求和shell
- 1. post请求
- 2. scrapy shell
- 3. 验证码识别

scrapy框架-post请求和shell

1. post请求

scrapy框架在开始时，会直接调用start_requests(self) 函数，所以需要重写start_requests方法，并且不调用start_urls里面的url，之后再使用回调函数进入真正的数据解析函数

class RenrenSpider(scrapy.Spider):
    name = ‘renren‘
    allowed_domains = [‘renren.com‘]
    start_urls = [‘http://renren.com/‘]

    def start_requests(self):
        url = "http://www.renren.com/PLogin.do"
        data = { ‘email‘: ‘[email protected]‘, ‘password‘:‘pythonspider‘, }
        requese = scrapy.FormRequest(url, formdata=data, callback=self.parse_page)
        # post方法请求页面，最好使用FormRequest函数
        yield requese

    def parse_page(self, response):
        with open(‘renren.html‘, ‘w‘, encoding=‘utf-8‘) as fp:
            fp.write(response.text)
        # 将页面写成html文件，用浏览器打开即可证明post请求成功。

2. scrapy shell

当我们想测试xpath语法得到的结果时，不停启动整个项目实际上是很笨重的，所以scrapy shell可以帮助我们测试数据解析语句效果

cmd
>> cd [projectname]
>> scrapy shell url
>> 返回一堆可以使用的对象，这里没有深入研究，只使用了response
>> title = response.xpath(r"//h[@class=‘ph‘]/text()").get()
>> title
>> 数据。。
>> contents = response.xpath(r"//td[@id=‘article_content‘]//text()").getall()  # 获取td标签下所有的文本，所以使用getall() 获取，返回一个列表
>> content = ‘‘.join(contents).strip()  # 将contens列表中的所有本文去除换行和空格送入
>> content
>> 显示一堆数据

3. 验证码识别

思路：

找到登陆的url，username，password表单格式，以及验证码url，然后将验证码下载到本地，此时有两种识别方法

1 将验证码展示在屏幕上，人工识别，手动输入

2 阿里云验证码识别服务，将图片下载后按照阿里云验证码识别的要求将数据发送给它，等待结果，处理json数据，提取验证码。

原文地址：https://www.cnblogs.com/bitterzZ/p/10202161.html

时间： 2024-10-18 06:11:43

爬虫2.3-scrapy框架-post、shell、验证码的相关文章

python爬虫----（5. scrapy框架，综合应用及其他）

在分析和处理选择内容时,还需注意页面的JS可能会修改DOM树结构. (一)GitHub的使用由于之前使用Win,没使用过shell的.目前只是了解.以后再补充.找到几个不错的教程 GitHub超详细图文攻略 http://blog.csdn.net/vipzjyno1/article/details/22098621 Github修改提交 http://www.360doc.com/content/12/0602/16/2660674_215429880.shtml 以后再补充!!!!! (二

Python爬虫进阶之Scrapy框架安装配置

Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

python爬虫----（2. scrapy框架）

Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 刚开始学习这个框架.不太好评论.只是感觉这个框架有些Java的感觉,需要太多的其他模块的支持. (一)创建 scrapy 项目 # 使用 scrapy startproject scrapy_test ├── scrapy_test │ ├── scrapy.cfg │ └── scrapy_test │

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │

python爬虫----（4. scrapy框架，官方文档以及例子）

官方文档: http://doc.scrapy.org/en/latest/ github例子: https://github.com/search?utf8=%E2%9C%93&q=scrapy 剩下的待会再整理...... 买饭去...... --2014年08月20日19:29:20 python爬虫----(4. scrapy框架,官方文档以及例子)

第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

第三百三十三节,web爬虫讲解2-Scrapy框架爬虫-Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其

python爬虫----（3. scrapy框架，简单应用）

(1)创建scrapy项目 scrapy startproject getblog (2)编辑 items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html from scrapy.item import Item, Field class B

爬虫学习 10.scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板.对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: ``pip3 install scrapy Windows: ``a. p

爬虫学习 11.scrapy框架持久化存储

爬虫学习 11.scrapy框架持久化存储基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx.xml scrapy crawl 爬虫名称