【Python3爬虫】Scrapy+MongoDB+MySQL

分享一下两个小爬虫,都是用Scrapy写的,一个用MongoDB保存,另一个用MySQL保存。

一、Scrapy+MongoDB

主要代码:

  在settings.py中添加如下代码:

MONGODB_HOST = "127.0.0.1"  # 本机ip地址MONGODB_PORT = 27017  # 端口号MONGODB_DB = "DouBan"  # 数据库名MONGODB_COL = "DouBanDuShu"  # 集合名

  在pipelines.py中添加如下代码:

import pymongofrom DouBanDuShu.settings import MONGODB_DB, MONGODB_PORT, MONGODB_HOST, MONGODB_COL

class DoubandushuPipeline(object):    def __init__(self):        client = pymongo.MongoClient(host=MONGODB_HOST, port=MONGODB_PORT)  # 连接MongoDB数据库        db = client[MONGODB_DB]  # 创建一个数据库        self.post = db[MONGODB_COL]  # 创建一个集合

def process_item(self, item, spider):        data = dict(item)        self.post.insert(data)  # 把数据存储到数据库中        return item

二、Scrapy+MySQL

前提:在MySQL数据库中建一个表来保存数据。

create table doubandianying(

  name varchar(100) not null,

  human varchar(100) not null,

  score varchar(10) not null,

  info varchar(200) not null

);

主要代码:

  在settings.py中添加如下代码:

MYSQL_HOST = "localhost"  # 主机MYSQL_PORT = 3306  # 端口号MYSQL_DB = "DouBan"  # 数据库名MYSQL_USER = 用户名MYSQL_PSD = 密码

  在pipelines.py中添加如下代码:

import pymysqlfrom DouBanDianYing.settings import MYSQL_DB, MYSQL_HOST, MYSQL_PSD, MYSQL_PORT, MYSQL_USER

class DoubandianyingPipeline(object):    def __init__(self):        self.conn = pymysql.connect(host=MYSQL_HOST, port=MYSQL_PORT, db=MYSQL_DB, user=MYSQL_USER, password=MYSQL_PSD)  # 连接MySQL数据库        self.cursor = self.conn.cursor()  # 创建游标

def process_item(self, item, spider):        try:            self.cursor.execute("insert into doubandianying(name,human,score,info) values (%s,%s,%s,%s)",                                (item[‘name‘], item[‘human‘], item[‘score‘], item[‘info‘]))  # 向数据表中插入数据            self.conn.commit()        except Exception as error:            print(error)        return item

三、关于在Pycharm中连接MySQL数据库

在Pycharm中点击右侧的Database,就会出现如下方框;

然后点击“+”按钮,选择Data Source,然后选择MySQL;

在弹出的对话框中输入以下信息,包括数据表名、用户名和密码(密码是自动隐藏的)。

添加信息无误后点击“OK”,在Pycharm中连接MySQL数据库就完成了,结果如下图。

(注:在链接MySQL数据库的时候记得先打开MySQL服务。)

最后附上源码地址:https://github.com/QAQ112233/DouBan

原文地址:https://www.cnblogs.com/TM0831/p/9684875.html

时间: 2024-10-06 15:26:35

【Python3爬虫】Scrapy+MongoDB+MySQL的相关文章

Python3爬虫(十八) Scrapy框架(二)

对Scrapy框架(一)的补充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy优点:    提供了内置的 HTTP 缓存 ,以加速本地开发 .    提供了自动节流调节机制,而且具有遵守 robots.txt 的设置的能力.    可以定义爬行深度的限制,以避免爬虫进入死循环链接 .    会自动保留会话.    执行自动 HTTP 基本认证 . 不需要明确保存状态.    可以自动填写登录表单.    Scrapy 有一个 内置的中间件 ,

<scrapy爬虫>scrapy命令行操作

1.mysql数据库 2.mongoDB数据库 3.redis数据库 1.创建项目 scrapy startproject myproject cd myproject 2.创建爬虫 scrapy genspider myspider www.baidu.com scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置 3.运行爬虫 scrapy crawl myspider 4.错误检查 scrapy check ----检查

Python3爬虫实战:实战源码+博客讲解

Python Spider 贵有恒,何必三更起五更睡:最无益,只怕一日暴十寒. Python3爬虫实战:实战源码+博客讲解 个人网站 CSDN博客 CSDN爬虫专栏 学习交流群[328127489] 声明 代码.教程仅限于学习交流,请勿用于任何商业用途! 文章首发声明 文章在自己的个人网站首发,其他平台文章均属转发,如想获得最新更新进展,欢迎关注我的个人网站:http://cuijiahua.com/ 目录 爬虫小工具 文件下载小助手 爬虫实战 笔趣看小说下载 百度文库免费文章下载助手_rev1

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解 本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

【转载】python3安装scrapy之windows32位爬坑

python3安装scrapy之windows32位爬坑 原创 2016年11月06日 01:38:08 标签: scrapy / windows / python / 开源框架 / 网络爬虫 早就听说scrapy不支持python3,而scrapy作为一款优秀的开源框架,不在新的python上集成一下实在可惜.最近刚好打算开始学习网络爬虫,网上又有那么多教程,so今天就来爬一下这个坑. 首先当然是安装一下python,官网可以直接安装最新的3.5.2.安装完成以后,可以成功python后在cm

Python3安装Scrapy

 Microsoft Visual C++ Build Tools 最近项目在写爬虫,项目经理给了个Python Scrapy的爬虫项目,要求使用Java实现相关功能.于是乎在本地先后安装了Python3和Scrapy,在安装Scrapy时出现了个小插曲,现在总结如下: 第一.安装Scrapy 查看网上安装scrapy,网友基本就是告诉你使用命令: pip install scrapy 然而.不是很熟悉Python的时候,就会发现根本找不到pip命令,这里不是说在PTAH中配置了Python的环

python爬虫Scrapy(一)-我爬了boss数据

一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴.    这次我选择爬取的是boss直聘来数据,毕竟这个网站的数据还是很有参考价值的,下面我们讲述怎么爬取boss直聘的招聘信息并存盘,下一篇文章我们在对爬取到的数据进行分析. 二.Scrapy框架使用步骤 下面我们做一个简单示例,创建一个名字为BOSS的爬虫工程,然后创建一个名字为zhipin的爬虫

WebMagic的设计参考了业界最优秀的爬虫Scrapy

http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html https://github.com/psvehla/liferay-spring-mvc-portlet http://www.huqiwen.com/2012/08/30/liferay-6-1-development-study-1/ .1 WebMagic的设计思想 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识.WebMagic的设计参考了业界最优秀的爬虫S

网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:).通常适用于需要大量网页信息的场合. 爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url-> ...依次循环.整体上来看就是一个广度优先的过程,当然,新的url也不一定非要从返回的网页中获得. 一个简单的网页