【Python3爬虫】Scrapy+MongoDB+MySQL

分享一下两个小爬虫，都是用Scrapy写的，一个用MongoDB保存，另一个用MySQL保存。

一、Scrapy+MongoDB

主要代码：

　　在settings.py中添加如下代码：

MONGODB_HOST = "127.0.0.1"  # 本机ip地址MONGODB_PORT = 27017  # 端口号MONGODB_DB = "DouBan"  # 数据库名MONGODB_COL = "DouBanDuShu"  # 集合名

　　在pipelines.py中添加如下代码：

import pymongofrom DouBanDuShu.settings import MONGODB_DB, MONGODB_PORT, MONGODB_HOST, MONGODB_COL

class DoubandushuPipeline(object):    def __init__(self):        client = pymongo.MongoClient(host=MONGODB_HOST, port=MONGODB_PORT)  # 连接MongoDB数据库        db = client[MONGODB_DB]  # 创建一个数据库        self.post = db[MONGODB_COL]  # 创建一个集合

def process_item(self, item, spider):        data = dict(item)        self.post.insert(data)  # 把数据存储到数据库中        return item

二、Scrapy+MySQL

前提：在MySQL数据库中建一个表来保存数据。

create table doubandianying(

　　name varchar(100) not null,

　　human varchar(100) not null,

　　score varchar(10) not null,

　　info varchar(200) not null

);

主要代码：

　　在settings.py中添加如下代码：

MYSQL_HOST = "localhost"  # 主机MYSQL_PORT = 3306  # 端口号MYSQL_DB = "DouBan"  # 数据库名MYSQL_USER = 用户名MYSQL_PSD = 密码

　　在pipelines.py中添加如下代码：

import pymysqlfrom DouBanDianYing.settings import MYSQL_DB, MYSQL_HOST, MYSQL_PSD, MYSQL_PORT, MYSQL_USER

class DoubandianyingPipeline(object):    def __init__(self):        self.conn = pymysql.connect(host=MYSQL_HOST, port=MYSQL_PORT, db=MYSQL_DB, user=MYSQL_USER, password=MYSQL_PSD)  # 连接MySQL数据库        self.cursor = self.conn.cursor()  # 创建游标

def process_item(self, item, spider):        try:            self.cursor.execute("insert into doubandianying(name,human,score,info) values (%s,%s,%s,%s)",                                (item[‘name‘], item[‘human‘], item[‘score‘], item[‘info‘]))  # 向数据表中插入数据            self.conn.commit()        except Exception as error:            print(error)        return item

三、关于在Pycharm中连接MySQL数据库

在Pycharm中点击右侧的Database，就会出现如下方框；

然后点击“+”按钮，选择Data Source，然后选择MySQL；

在弹出的对话框中输入以下信息，包括数据表名、用户名和密码（密码是自动隐藏的）。

添加信息无误后点击“OK”，在Pycharm中连接MySQL数据库就完成了，结果如下图。

（注：在链接MySQL数据库的时候记得先打开MySQL服务。）

最后附上源码地址：https://github.com/QAQ112233/DouBan

原文地址：https://www.cnblogs.com/TM0831/p/9684875.html

时间： 2024-10-06 15:26:35

【Python3爬虫】Scrapy+MongoDB+MySQL的相关文章

Python3爬虫（十八） Scrapy框架（二）

对Scrapy框架(一)的补充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy优点: 提供了内置的 HTTP 缓存 ,以加速本地开发 . 提供了自动节流调节机制,而且具有遵守 robots.txt 的设置的能力. 可以定义爬行深度的限制,以避免爬虫进入死循环链接 . 会自动保留会话. 执行自动 HTTP 基本认证 . 不需要明确保存状态. 可以自动填写登录表单. Scrapy 有一个内置的中间件 ,

<scrapy爬虫>scrapy命令行操作

1.mysql数据库 2.mongoDB数据库 3.redis数据库 1.创建项目 scrapy startproject myproject cd myproject 2.创建爬虫 scrapy genspider myspider www.baidu.com scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置 3.运行爬虫 scrapy crawl myspider 4.错误检查 scrapy check ----检查

Python3爬虫实战：实战源码+博客讲解

Python Spider 贵有恒,何必三更起五更睡:最无益,只怕一日暴十寒. Python3爬虫实战:实战源码+博客讲解个人网站 CSDN博客 CSDN爬虫专栏学习交流群[328127489] 声明代码.教程仅限于学习交流,请勿用于任何商业用途! 文章首发声明文章在自己的个人网站首发,其他平台文章均属转发,如想获得最新更新进展,欢迎关注我的个人网站:http://cuijiahua.com/ 目录爬虫小工具文件下载小助手爬虫实战笔趣看小说下载百度文库免费文章下载助手_rev1

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

【转载】python3安装scrapy之windows32位爬坑

python3安装scrapy之windows32位爬坑原创 2016年11月06日 01:38:08 标签: scrapy / windows / python / 开源框架 / 网络爬虫早就听说scrapy不支持python3,而scrapy作为一款优秀的开源框架,不在新的python上集成一下实在可惜.最近刚好打算开始学习网络爬虫,网上又有那么多教程,so今天就来爬一下这个坑. 首先当然是安装一下python,官网可以直接安装最新的3.5.2.安装完成以后,可以成功python后在cm

Python3安装Scrapy

Microsoft Visual C++ Build Tools 最近项目在写爬虫,项目经理给了个Python Scrapy的爬虫项目,要求使用Java实现相关功能.于是乎在本地先后安装了Python3和Scrapy,在安装Scrapy时出现了个小插曲,现在总结如下: 第一.安装Scrapy 查看网上安装scrapy,网友基本就是告诉你使用命令: pip install scrapy 然而.不是很熟悉Python的时候,就会发现根本找不到pip命令,这里不是说在PTAH中配置了Python的环

python爬虫Scrapy(一)-我爬了boss数据

一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. 这次我选择爬取的是boss直聘来数据,毕竟这个网站的数据还是很有参考价值的,下面我们讲述怎么爬取boss直聘的招聘信息并存盘,下一篇文章我们在对爬取到的数据进行分析. 二.Scrapy框架使用步骤下面我们做一个简单示例,创建一个名字为BOSS的爬虫工程,然后创建一个名字为zhipin的爬虫

WebMagic的设计参考了业界最优秀的爬虫Scrapy

http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html https://github.com/psvehla/liferay-spring-mvc-portlet http://www.huqiwen.com/2012/08/30/liferay-6-1-development-study-1/ .1 WebMagic的设计思想 1. 一个框架,一个领域一个好的框架必然凝聚了领域知识.WebMagic的设计参考了业界最优秀的爬虫S

网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:).通常适用于需要大量网页信息的场合. 爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url-> ...依次循环.整体上来看就是一个广度优先的过程,当然,新的url也不一定非要从返回的网页中获得. 一个简单的网页