爬虫2.2-scrapy框架-文件写入

scrapy框架-文件写入
- 1. lowb写法
- 2. 高端一点的写法
- 3. 优化版本

scrapy框架-文件写入

1. lowb写法

~pipelines.py
前提回顾，spider.py中   data={‘xx‘:xx, ‘xxx‘:xxx}  yield data
import json
class QsbkPipeline(object):
    def __init__(self):
        self.fp = open(‘qsbk.json‘, ‘w‘, encoding=‘utf-8‘)  # 初始化文件指针

    def open_spider(self, spider):
        print("spider start")  # 方便观察

    def process_item(self, item, spider):
        data = json.dumps(item, ensure_ascii=False)#将字典转换一下，同时关闭默认的ascii码很坑
        self.fp.write(data+‘\n‘)   # 每次写入后加入换行

    def close_spider(self, spider):
        self.fp.close()
        print("spider end"）

当整个项目开始时，会执行__init__ 和open_spider函数，所以先将文件打开，方便写入。项目结束时运行close_spider函数，在这个地方关闭文件。

每次spider将数据抛出，由process_spider函数进行处理

2. 高端一点的写法

在items.py的类中创建两个实例，作为数据的传输对象
~items.py
import scrapy
class QsbkItem(scrapy.Item):
    author = scrapy.Filed()
    joke = scrapy.Filed()  # 没有为什么，就是用这个类

~qsbk_spider.py
from qsbk.items import QsbkItem
def parse(self, response):
    。。。。
    item = QsbkItem(author=author,joke=joke)  # 这里author和content是提前处理好的数据，前面的部分省略了。
    yield item

~pipelines.py
import json
class QsbkPipeline(object):
    ....
    def process_item(self, itme, spider):
        item_json = json.dumps(dict(item), ensure_ascii=False)    # 将接收到的item对象转换成字典，再用dumps函数转为json，再调用文件指针写入。
        self.fp.write(item_json+‘\n‘)

3. 优化版本

另外对于pipelines.py的文件写入  scrapy由已经定义好的函数
from scrapy.exporters import JsonLinesItemExporter
# JsonItemExporter类在结束时使用self.fp.close,然后将所有json加载到一个列表中，在结束时才统一写入，容易浪费内存，并且需要在open_spider中使用exporting.start函数
# 所以选择这个JsonLinesItemExporter 每次写入一个json，不方便之后的读取。所以数据量小的时候可以选择使用JsonItemExporter。数据也比较安全，当然也有定义好的csv文件写入方法。

~pipelines.py
from scrapy.exporters import JsonLinesItemExporter
class WxappPipeline(object):
    def __init__(self):
        self.fp = open(‘WXAPP.json‘, ‘wb‘)
        self.export = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding=‘utf-8‘)
        self.fp.write(b‘[‘)

    def process_item(self, item, spider):
        self.export.export_item(item)  # item是在items.py中定义好的类
        self.fp.write(b‘,‘)
        # 这里每次写入一点json数据后直接放个逗号进入
        # 并在开头和结尾加入了  [  ]   这样的话当爬虫结束时，一个完整的json文件就写好了。
        return item   # 返回item 不然之后的pipeline都没办法用了

    def close_spider(self, spider):
        self.fp.write(b‘]‘)
        self.fp.close()

原文地址：https://www.cnblogs.com/bitterzZ/p/10202086.html

时间： 2024-08-12 23:03:13

爬虫2.2-scrapy框架-文件写入的相关文章

爬虫学习 11.scrapy框架持久化存储

爬虫学习 11.scrapy框架持久化存储基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx.xml scrapy crawl 爬虫名称

python爬虫----（2. scrapy框架）

Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 刚开始学习这个框架.不太好评论.只是感觉这个框架有些Java的感觉,需要太多的其他模块的支持. (一)创建 scrapy 项目 # 使用 scrapy startproject scrapy_test ├── scrapy_test │ ├── scrapy.cfg │ └── scrapy_test │

Python爬虫进阶之Scrapy框架安装配置

Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1

第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

第三百三十三节,web爬虫讲解2-Scrapy框架爬虫-Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其

python爬虫----（3. scrapy框架，简单应用）

(1)创建scrapy项目 scrapy startproject getblog (2)编辑 items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html from scrapy.item import Item, Field class B

爬虫学习 10.scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板.对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: ``pip3 install scrapy Windows: ``a. p

爬虫学习 12.scrapy框架之递归解析和post请求

爬虫学习 12.scrapy框架之递归解析和post请求今日概要递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送今日详情 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析. 实现方案: 1.将每一个页码对应的url存放到爬虫文件的起始url列表(start_

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │