Scrapy入门教程之写入数据库

接着之前的文章http://blog.csdn.net/androidworkor/article/details/51176387 来说说如何把抓到的数据写入数据库。

1. 编写爬虫脚本

还是以爬糗事百科为例,编写脚本,保存在 Hello/spiders 目录下的 spider_qiushibaike.py 文件中

# -*- coding: utf-8 -*-
import scrapy
from Hello.items import HelloItem

class Spider_qiushibaike(scrapy.Spider):
    name = "qiubai"

    start_urls = [
        ‘http://www.qiushibaike.com‘
    ]

    def parse(self, response):
        for item in response.xpath(‘//div[@id="content-left"]/div[@class="article block untagged mb15"]‘):
            qiubai = HelloItem()

            icon = item.xpath(‘./div[@class="author clearfix"]/a[1]/img/@src‘).extract()
            if icon:
                icon = icon[0]
                qiubai[‘userIcon‘] = icon

            userName = item.xpath(‘./div[@class="author clearfix"]/a[2]/h2/text()‘).extract()
            if userName:
                userName = userName[0]
                qiubai[‘userName‘] = userName

            content = item.xpath(‘./div[@class="content"]/descendant::text()‘).extract()
            if content:
                con = ‘‘
                for str in content:
                    con += str
                qiubai[‘content‘] = con

            like = item.xpath(‘./div[@class="stats"]/span[@class="stats-vote"]/i/text()‘).extract()
            if like:
                like = like[0]
                qiubai[‘like‘] = like

            comment = item.xpath(‘./div[@class="stats"]/span[@class="stats-comments"]/a/i/text()‘).extract()
            if comment:
                comment = comment[0]
                qiubai[‘comment‘] = comment

            yield qiubai

2. 创建数据库

2.1 创建数据库

我使用的是SQLyog这个软件。打开SQLyog,填写保/存的连接、MySQL Host Address、用户名、密码如下所示:

准确填写之后,点击连接进入数据库界面,如下图所示:

鼠标右键点击红色框框圈起来的区域,选择创建数据库,如下图所示:

这样数据库就创建好了。

2.2 创建表

选中刚创建好的数据库,点击鼠标右键,选择创建表,如下如所示:

出现一个界面,如下图所示:

填好表名称、字段、类型等等。这样表也建好了。其中表的结构一定要跟之前定义好的items.py个数和类型要保存一致

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class HelloItem(scrapy.Item):
    # define the fields for your item here like:
    userIcon = scrapy.Field()
    userName = scrapy.Field()
    content = scrapy.Field()
    like = scrapy.Field()
    comment = scrapy.Field()

3. 编写pipelines.py文件

编写pipelines文件,其文件目录机构是这样的:

其中代码如下:

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql

def dbHandle():
    conn = pymysql.connect(
        host=‘localhost‘,
        user=‘root‘,
        passwd=‘root‘,
        charset=‘utf8‘,
        use_unicode=False
    )
    return conn

class HelloPipeline(object):
    def process_item(self, item, spider):
        dbObject = dbHandle()
        cursor = dbObject.cursor()
        sql = ‘insert into joke.t_baike(userIcon,userName,content,likes,comment) values (%s,%s,%s,%s,%s)‘

        try:
            cursor.execute(sql,(item[‘userIcon‘],item[‘userName‘],item[‘content‘],item[‘like‘],item[‘comment‘]))
            dbObject.commit()
        except Exception,e:
            print e
            dbObject.rollback()

        return item

4. 配置使pipelines.py生效

打开settings.py文件,添加一行代码

ITEM_PIPELINES = {
    ‘Hello.pipelines.HelloPipeline‘: 300,
}

这样就可以了。完整的如下图所示:

5. 运行

所有的准备工作都做好了,现在就是见证奇迹的时候了。

打开命令行执行

scrapy crawl qiubai

这时候你大概可以看到类似的日志,如下图所示:

好了到这里差不多,在来看看数据库中是否插入成功。

数据库插入成功,在看下数据是否抓取正确,打开qiushibaike.com,比对下

好了,大功告成了。


容我打个广告:

如果你不了解环境是怎么搭建的可以查看这篇文章:http://blog.csdn.net/androidworkor/article/details/51171098

如果你对scrapy的基本用法不熟悉你可以看这篇文章:http://blog.csdn.net/androidworkor/article/details/51176387

好了,有什么问题,请留言。

时间: 2024-11-07 22:09:04

Scrapy入门教程之写入数据库的相关文章

Scrapy入门教程

在这篇入门教程中,我们假定你已经安装了Scrapy.如果你还没有安装,那么请参考安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目 定义提取的Item 写一个Spider用来爬行站点,并提取Items 写一个Item Pipeline用来存储提取出的Items Scrapy是由Python编写的.如果你是Python新手,你也许希望从了解Python开始,以期最好的使用Scrapy.如果你对其它编程语言熟悉,想快速的学

python之scrapy入门教程

看这篇文章的人,我假设你们都已经学会了python(派森),然后下面的知识都是python的扩展(框架). 在这篇入门教程中,我们假定你已经安装了Scrapy.如果你还没有安装,那么请参考安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目 定义提取的Item 写一个Spider用来爬行站点,并提取Items 写一个Item Pipeline用来存储提取出的Items Scrapy是由Python编写的.如果你是Pyth

Scrapy 入门教程

Scrapy 是用 Python 实现的一个为了爬取网站数据.提取结构性数据而编写的应用框架. Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片. Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间的通讯,信号.数据传递等. Scheduler(调度器): 它负责接受引擎发

Scrapy 入门教程 --爬去ITunes app列表

Scrapy 是什么? Scrapy 是一个开源的基于Twisted的python爬虫框架,我们只要定制几个简单的模块就能实现网络数据的爬取. Scrapy 的整体架构 简单的解释一下上面的图: 爬虫处理的原材料是一个或多个url,爬取时Sheduler会把一个url分配给Downloader来进行一次网络的request请求,请求完成后Downloader再把所得到的response传到Spiders,如果返回的数据是我们需要的,数据就会被处理成相应的Item交给ItemPipeline来进行

Scrapy安装、爬虫入门教程、爬虫实例(豆瓣电影爬虫)

Scrapy在window上的安装教程见下面的链接:Scrapy安装教程 上述安装教程已实践,可行.本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,暂时不想再上面装太多软件. Scrapy的入门教程见下面链接:Scrapy入门教程 上面的入门教程是很基础的,先跟着作者走一遍,要动起来哟,不要只是阅读上面的那篇入门教程,下面我简单总结一下Scrapy爬虫过程: 1.在Item中定义自己要抓取的数据: movie_name就像是字典中的“键”,爬到的数

Scrapy 框架 入门教程

Scrapy入门教程 在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目 定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Item Pipeline 来存储提取到的Item(即数据) 创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目. 进入您打算存储代码的目录中,运行下列命令: scrapy startproject tutorial tutorial/ scrapy.cfg tutorial/ __init__

【scrapy】学习Scrapy入门

Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scr

超强、超详细Redis数据库入门教程

这篇文章主要介绍了超强.超详细Redis入门教程,本文详细介绍了Redis数据库各个方面的知识,需要的朋友可以参考下 [本教程目录] 1.redis是什么2.redis的作者何许人也3.谁在使用redis4.学会安装redis5.学会启动redis6.使用redis客户端7.redis数据结构 – 简介8.redis数据结构 – strings9.redis数据结构 – lists10.redis数据结构 – 集合11.redis数据结构 – 有序集合12.redis数据结构 – 哈希13.聊聊

【数据库之mysql】 mysql 入门教程(二)

目录 一.MySQL的相关概念介绍 二.Windows下MySQL的配置 配置步骤 MySQL服务的启动.停止与卸载 三.MySQL脚本的基本组成 四.MySQL中的数据类型 五.使用MySQL数据库 登录到MySQL 创建一个数据库 选择所要操作的数据库 创建数据库表 六.操作MySQL数据库 向表中插入数据 查询表中的数据 更新表中的数据 删除表中的数据 七.创建后的修改 添加列 修改列 删除列 重命名表 删除整张表 删除整个数据库 八.附录 修改 root 用户密码 可视化管理工具 MyS