scrapy爬虫案例

一个简单的爬虫案例

from scrapy_redis.spiders import RedisSpider
import os,urllib.request,time

class XiaohuaSpider(scrapy.Spider):
    name = ‘xiaohua‘
    allowed_domains = [‘90xiaohua.com‘]
    start_urls = [‘http://90xiaohua.com//‘]
    file_path = r‘D:\python_code\spider\item\item\img‘ # 图片保存位置

    def parse(self, response):
        time.sleep(1)
        li_list = response.xpath(‘//ul[@class="f-cb"]/li‘)
        print(response.request.url, response.meta.get(‘depth‘, 0))
        for item in li_list:
            # 获取img 信息
            data=item.xpath(‘.//a/img/@data-original‘).extract_first()
            if not data:
                continue

            src=‘http://90xiaohua.com%s‘%(data)
            src_img = data.rsplit(‘/‘,1)[1]  # 获取图片名称

            img = os.path.join(self.file_path, src_img)
            urllib.request.urlretrieve(src, img)   # 下载图片，保存到指定位置

        #分页
        page_list = response.xpath(‘//div[@class="m-page m-page-sr m-page-sm"]//a/@href‘).extract()
        for num in page_list:
            page = ‘http://90xiaohua.com/‘ + num
            yield Request(url=page, callback=self.parse, dont_filter=False)
            print(page)

案例

原文地址：https://www.cnblogs.com/hbfengjun/p/12564314.html

时间： 2024-08-30 08:53:31

scrapy爬虫案例的相关文章

Scrapy爬虫案例01——翻页爬取

之前用python写爬虫,都是自己用requests库请求,beautifulsoup(pyquery.lxml等)解析.没有用过高大上的框架.早就听说过Scrapy,一直想研究一下.下面记录一下我学习使用Scrapy的系列代码及笔记. 安装 Scrapy的安装很简单,官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html .这里不详细说明了. 创建工程我是用的是pycharm开发,打开pycharm

scrapy爬虫案例数据存入MongoDB

爬虫py文件 # -*- coding: utf-8 -*- import scrapy from ..items import RtysItem class RtSpider(scrapy.Spider): name = 'rt' #爬虫名,启动项目时用 # allowed_domains = ['www.baidu.com'] #定义爬虫范围注释掉就可以 start_urls = ['https://www.woyaogexing.com/touxiang/'] #起始url 项目启动时,

scrapy爬虫案例：用MongoDB保存数据

用Pymongo保存数据爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中. items.py class DoubanspiderItem(scrapy.Item): # 电影标题 title = scrapy.Field() # 电影评分 score = scrapy.Field() # 电影信息 content = scrapy.Field() # 简介 info = scrapy.Field() spiders/douban.py

Scrapy 爬虫模拟登陆的3种策略

1 Scrapy 爬虫模拟登陆策略前面学习了爬虫的很多知识,都是分析 HTML.json 数据,有很多的网站为了反爬虫,除了需要高可用代理 IP 地址池外,还需要登录,登录的时候不仅仅需要输入账户名和密码,而且有可能验证码,下面就介绍 Scrapy 爬虫模拟登陆的几种策略. 1.1 策略一:直接POST请求登录前面介绍的爬虫 scrapy 的基本请求流程是 start_request 方法遍历 start_urls 列表,然后 make_requests_from_url方法,里面执行

dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用

首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是page->model->result,从网页中提取数据,组成有意义的数据结构,再拿这数据结构做点什么. 在这个项目中,爬虫的用处是从游久网dota数据库上抓取dota英雄和物品的数据和照片存到本地磁盘,数据存为json格式,方便在网页应用中直接使用. 2.网页应用,使用dota英雄数据.自己编写的小伙

如何让你的scrapy爬虫不再被ban

前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据(scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据)和写入数据库(scrapy爬虫成长日记之将抓取内容写入mysql数据库).然而,这个爬虫的功能还是过于弱小,一旦目标网站设置了爬虫的限制,我们的爬虫也就失效了.因此这里重点讲述一下如何避免scrapy爬虫被ban.本门的所有内容都是基于前面两篇文章的基础上完成的,如果您错过了可以点击此回看:scrapy爬虫成长日记之创建工程-抽取数据-保存为json格

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报

1.项目准备:网站地址:http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫: scrapy startproject weather scrapy genspider HQUSpider quanzhou.tianqi.com 项目文件结构如图: 3.修改Items.py: 4.修改Spider文件HQUSpider.py: (1)先使用命令:scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器: (2)试验选择

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置user agent.代理IP和VPN等一系列的措施组合来防止爬虫被ban.除此以外官方文档还介绍了采用Google cache和crawlera的方法.这里就着重介绍一下如何利用crawlera来达到爬虫不被ban的效果.crawlera是一个利用代理IP地址池来做分布式下载的第三方平台,除了scrap

基于python的scrapy爬虫抓取京东商品信息

这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.py , settings.py , 其中主要编写的是前两个文件,最后一个文件主要设置破解反爬方法. phone.py编写程序如下: import scrapy from scrapy.http import Request from jd_phone.items import JdPhoneItem