python---scrapy之MySQL同步存储

假设我们已经能获取到item里定义的字段的数据,接下来就需要保存item的数据到mysql数据库.

pipeline用来存储item中的数据,将爬取到的数据进行二次处理

首先,要做的准备的工作,安装MySQLdb,我安装的是Python-MySQL1.2.5模块.

自定义一个pipeline用mysql来存储item中的数据

class MySQLPipeline(object):
    #自定义一个pipeline用mysql来存储item中的数据
    def __init__(self):
        # 代码连接数据库
        # 1)连接
        # 连接的数据库必须存在
        db = MySQLdb.Connect(host=‘localhost‘, user=‘root‘, passwd=‘123456‘, db=‘testdb‘, charset=‘utf8‘,use_unicode=True)
        # 游标/指针
        cursor = db.cursor()
        self.db=db
        self.cursor=cursor
        #先删除表

        sql="drop table IF EXISTS test"
        self.cursor.execute(sql)
        self.db.commit()

        sql = "create table if not exists test (id INT PRIMARY KEY auto_increment NOT NULL , title VARCHAR(50) NOT NULL,category_name VARCHAR (100),date_time VARCHAR (20) NOT NULL ,likes INT DEFAULT 0,content longtext ,comment INT DEFAULT 0,collect INT DEFAULT 0,detail_url VARCHAR (255) UNIQUE,src VARCHAR (255))"
        # 参数1:query,填写sql语句
        # 参数2:args,参数,默认是空,填写元组
        self.cursor.execute(sql)
        self.db.commit()

    def process_item(self, item, spider):

        #2)执行相关操作

        # #3)关闭连接,先关cursor,再关db
        # cursor.close()
        # db.close()

        #如果要给所有列添加数据,列名可以不写
        try:
            sql="insert into test (title,category_name, date_time,likes,content, comment,collect, detail_url,src) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            self.cursor.execute(sql, (item[‘title‘],item[‘category_name‘],item[‘date_time‘],item[‘likes‘], item[‘content‘],item[‘comment‘], item[‘collect‘],item[‘detail_url‘],item[‘src‘][0]))
            self.db.commit()
        except:
            print u‘数据重复忽略不计‘

        return item

    def __del__(self):

        self.cursor.close()
        self.db.close()

process_item(self,item,spider)这个方法会被每个item pipeline组件调用,并且该方法必须返回一个字典数据,item或者抛出一个DropItem异常.

在settings注册下

ITEM_PIPELINES = {

    #MySQL同步写入
    "JobboleSpider.pipelines.MySQLPipeline": 2,

}

还有可以直接通过模型对象操作数据库的方式称为ORM

特点:不需要写sql语句,可以直接操作数据库

添加:item.save(),

删除:item.delete()

............................

时间: 2024-10-17 23:43:10

python---scrapy之MySQL同步存储的相关文章

python自动化管理mysql主从同步

mysql 多实例 1.my.cnf 通过定义mysqldconfig类   mysqld_vars = {}  从里面获得很多配置文件相关参数写入字典 mysql.py 2.init DB 初始化数据库 3.修改权限 4.rc脚本启动 5.check 检查一下配置文件,配置文件与mysql变量同步 6.值其实一样,不让显示 7.Popen 调用 mysql -e 命令 SQL IO Seconds_Behind_Master:0    看这个阀值.大于两秒 8.mysql主从 主配置文件: b

用Python对MySQL同步状态进行监控

用Python对MySQL同步状态进行监控 使用Python对MySQL数据库服务器是否可访问,及主从同步是否中断进行监控,是一件非常简单的事情.感谢Python给我们带来了如此简单,强大,快捷的开发环境. 本文使用到的Python模块 使用telnetlib校验服务器是否可被访问 使用SMTP向管理员发送通知邮件 使用MySQL官方的驱动对数据库进行访问 使用optparse实现命令行参数的提取 实现原理 使用optparse模块获取命令行参数.读取defaults-file设置文件内容(如果

百万年薪python之路 -- MySQL数据库之 存储引擎

MySQL之存储引擎 一. 存储引擎概述 定义: 存储引擎是mysql数据库独有的存储数据.为数据建立索引.更新数据.查询数据等技术的实现方法 ? 首先声明一点: 存储引擎这个概念只有MySQL才有. ? 在讲清楚什么是存储引擎之前,我们先来个比喻,我们都知道录制一个视频文件,可以转换成不同的格式,例如mp4,avi,wmv等,而存在我们电脑的磁盘上也会存在于不同类型的文件系统中如windows里常见的ntfs.fat32,存在于linux里常见的ext3,ext4,xfs,但是,给我们或者用户

python Scrapy安装

python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel libxml2-devel 2.将系统自带python2.6的easy_install备份,使用python2.7.10升级后的easy_install mv /usr/bin/easy_install /usr/bin/easy_install_2.6 ln -s /usr/local/pytho

python——django使用mysql数据库(一)

之前已经写过如何创建一个django项目,现在我们已经有了一个小骷髅,要想这个web工程变成一个有些有肉的人,我们还需要做很多操作.现在就先来介绍如何在django中使用mysql数据库. 前提:已经拥有一个django项目.已安装MySQLdb,进入mysql创建一个新的库(注意,这里必须是新的库,如果库里已经有表,就会出问题.) 修改配置项:打开已经创建好的django项目,在INSTALLED_APPS添加自己的工程名称.修改DATABASES项中配置的内容. INSTALLED_APPS

监控mysql同步,修改DNS解析

#!/usr/bin/env python import time,MySQLdb from subprocess import Popen from subprocess import PIPE import dns.query import dns.message import dns.tsig import dns.tsigkeyring import dns.update def set_dns(ip_list): key=dns.tsigkeyring.from_text({"cui.

MySQL的存储引擎与日志说明

1.1 存储引擎的介绍 1.1.1 文件系统存储 文件系统:操作系统组织和存取数据的一种机制.文件系统是一种软件. 类型:ext2 3 4 ,xfs 数据.  不管使用什么文件系统,数据内容不会变化,不同的是,存储空间.大小.速度. 1.1.2 mysql数据库存储 MySQL引擎: 可以理解为,MySQL的“文件系统”,只不过功能更加强大. MySQL引擎功能: 除了可以提供基本的存取功能,还有更多功能事务功能.锁定.备份和恢复.优化以及特殊功能. 1.1.3 MySQL存储引擎种类 MySQ

【转】Python中操作mysql的pymysql模块详解

Python中操作mysql的pymysql模块详解 前言 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同.但目前pymysql支持python3.x而后者不支持3.x版本. 本文测试python版本:2.7.11.mysql版本:5.6.24 一.安装 1 pip3 install pymysql 二.使用操作 1.执行SQL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Python 12:mysql

Python 12:mysql 1.数据库基础 2.数据库基本操作 3.表操作 4.表内容操作 5.视图 6.事务 7.索引 8.pyMySQL 9.sqlalchemy ORM 一.数据库基础 1.关系型数据库 小型关系型数据库软件:MySql.SqlServer/Access.maridb(从原Mysql出来的人马组建的) 大型关系型数据库:Oracle.DB2/Infomix 非关系型数据库,比如云计算大数据所用的mongoDB 目前金融行业oracle占65%-70%,DB2占10%,i