在scrapy中将数据保存到mongodb中

利用item pipeline可以实现将数据存入数据库的操作，可以创建一个关于数据库的item pipeline

需要在类属性中定义两个常量

　　DB_URL：数据库的URL地址

　　DB_NAME：数据库的名字

在Spider爬取的整个过程中，数据库的连接和关闭操作只需要进行一次就可以，应该在开始处理之前就要连接数据库，并在处理完所有数据之后就关闭数据库。所以需要在open_spider和close_spider中定义数据库的连接和关闭操作

　　在process_item中实现MongoDB的写入操作，使用self.db和spider.name获得一个集合，然后就是将数据插入到这个集合中，集合对象的insert_one插入的是一个字典对象，不能传入item对象，所以在调用之前要对这个item对象进行判断，如果是item对象就要转成字典

如果要是想通过配置文件来进行配：

　　增加了类方法from_crawler(cls, cralwer)，代替了在类属性中定义的DB_URL，DB_NAME

　　如果是一个item pipeline定一个from_crawler方法，scrapy就会调用这个方法来创建item pipeline对象。这个方法有两个参数

　　　　cls

　　　　　　item pipeline类的对象，这里指的是当前这个item pipeline对象

　　　　crawler

　　　　　Crawler是scrapy中的一个核心的对象，可以通过crawler的settings属性访问配置文件

　　在from_crawler中，读取配置文件中的MONGO_DB_URL和MONGO_DB_NAME（不存在使用默认值），赋值给cls的属性，也就是当前item pipeline的对象

　　其它的读取关闭没有发生任何的改变，读取关闭都是正常的操作

原文地址：https://www.cnblogs.com/tulintao/p/11702777.html

时间： 2024-08-29 10:01:44

在scrapy中将数据保存到mongodb中的相关文章

1.scrapy爬取的数据保存到es中

先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime from elasticsearch_dsl import DocType, Date, Nested, Boolean, \ analyzer, InnerDoc, Completion, Keyword, Text, Integer from elasticsearch_dsl.connections im

Python获取个人网站的所有课程下载链接和密码，并保存到Mongodb中

1.获取网站课程的分类地址: ''' 爬取屌丝首页,获取每个分类名称和链接 ''' import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36', } def get_class_data(): list_dat

Excel文件数据保存到SQL中

1.获取DataTable /// <summary> /// 查询Excel文件中的数据 /// </summary> /// <param name="strPath">文件路径</param> /// <param name="sheetName">工作表名</param> /// <returns>DataTable</returns> public DataTa

Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中

这个框架关注了很久,但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. 先说明下这个玩具爬虫的目的能够将种子URL页面当中的小组进行爬取并分析出有关联的小组连接以及小组的组员人数和组名等信息出来的数据大概是这样的 { 'RelativeGroups': [u'http://www.douban.com/group/10127/',

Python scrapy爬虫数据保存到MySQL数据库

除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表: CREATE TABLE job inf ( id INT (11) NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR (255), salary VARCHAR (255), company VARCHAR (255),

PHP操作：将数据库中的数据保存到Word中。

1.首先定义了一个word类 <?php class word { function start() { ob_start(); ob_start — 打开输出控制缓冲 } function save($path) { $data = ob_get_contents(); ob_get_contents — 返回输出缓冲区的内容 ob_end_clean(); ob_end_clean — 清空(擦除)缓冲区并关闭输出缓冲 $this->wirtetoword($path,$data); }

如何将MATLAB数据保存到Excel中

最近做仿真的时候需要用到这个功能,所以网上搜了一下,找到一个可行的方法. ----------------------------------------------------------------------------- excel = actxserver('excel.application'); % 打开一个excel操作对象set(excel,'visible',2); % 使excel对象可见,即打开excel窗口, % 实际应用时设置其为

将添加的表格框中数据保存到_data中，

//找到行数将修改的数据传到_data的FISH_NAME中$('table').on('click','.drop-item',function(){ var _data = self.FishConfigList(); console.log(_data); var liText = $(this).text(); var indexi = $(this).closest('tr').index(); _data[indexi].FISH_NAME =liText; return _data

使用lxml的css选择器用法爬取奇书网并保存到mongoDB中

import requests from lxml import etree from fake_useragent import UserAgent import pymongo class QiShuSpider(object): def __init__(self): self.base_url="https://www.qisuu.la/soft/sort01/" self.headers={ "User-Agent":UserAgent().random,

猜你喜欢

toString方法的用法

public class JLDtoS { public static void main(String[]args) { long a=123; Long aa=new Long ...

MySQL常用Json函数

官方文档:JSON Functions Name Description JSON_APPEND() Append data to JSON document JSON_ARRAY() Create ...

Android--Android studio 的编译系统 Gradle（二）

要执行命令行,首先,在环境变量里面进行配置. 1.手动安装Gradle,bin-->gradle.bat,这个目录配置到环境变量path里面,这样才能在变量里面进行运行. 2.Android s ...

题目: Reverse bits of a given 32 bits unsigned integer. For example, given input 43261596 (represented ...

捡狗头金牧民一家“消失” 有人曾欲出千万收购

亚心网讯(记者齐琳洁)2月9日,记者从新疆阿勒泰地区青河县政府获悉,当地已安排阿尕什敖包乡政府及有关部门加强对捡到“狗头金”的牧民的安全保护. 日前,家住青河县阿尕什敖包乡定居新村的哈萨克族牧民别热 ...

java基础---->java多线程的使用（四）

线程的priority能告诉调度程序其重要性如何,今天我们通过实例来学习一下java多线程中的关于优先级的知识. java多线程的优先级一.java多线程中关于优先级的实例 package com. ...

汇编语言编写一个交易系统的开发平台

Impulse.CoDeveloper.Universal.v2.10.G.29 1CD(用于开发FPGAs和基于FPGA的高性能电脑系统的一款C语言开发系统) IMSL C Numerical Li ...

java获取手机号归属地

1 package org.lebing.test; 2 3 import java.io.InputStream; 4 import java.io.OutputStream; 5 import j ...

（转）c++类的成员函数存储方式（是否属于类的对象）---一道面试题引发的思考

昨天去面试一家公司,面试题中有一个题,自己没弄清楚,先记录如下: class D { public: void printA() { cout<<"printA"< ...

iOS核心动画高级技巧之图层变换和专用图层(二)

仿射变换 iOS仿射变换是CGAffineTransform,仿射变换的特点是变换后的图形对边依然是平行的,它包括 CGAffineTransformMakeRotation(CGFloat angl ...

图书馆系统程序

#include<stdio.h> #include<string.h> #include<conio.h> #include<stdlib.h> #i ...

虚拟机是怎么实现的

这篇论文起名叫Disco(迪士高)是因为虚拟机本身不是一个新的东西,大概在上世纪70年代就有了.作者们为了表示敬意,或者是显示这是一个复古的东西,就把这个项目取名为disco.这篇论文介绍了虚拟机关键 ...

[MODX] 0. Mangement System Overview

In Modex, there are three tabs: Resoources, Elements & Files First: 'Files' is the place where t ...

下蛊卦远日纤饲首蝗偬究蛊实必子

www.ebay.com/gds/2014.11.28/10000000184681314/ www.ebay.com/gds/2014.11.28/10000000184681313/ www.eb ...

mimikatz工具读取windows系统账号密码

mimikatz,windows密码抓取神器,可以读取windows中账号的密码,方便用于渗透中系统密码抓取. 工具具体适用方法就不介绍了,直接上实例!!! 工具执行如图所示: 抓取本地adminis ...

点击和焦点事件

private void text_GotFocus(object sender, EventArgs e) { using (var db = new FiDbContext()) { ComboB ...

驼峰命名法则

骆驼式命名法(Camel-Case)又称驼峰命名法,是电脑程式编写时的一套命名规则(惯例).正如它的名称CamelCase所表示的那样,是指混合使用大小写字母来构成变量和函数的名字.程序员们为了自己 ...

托福写作机经不是看越多越好

托福写作机经有很多,那么对于很多备考的考生们来说,是否有必要全部都看?看多少合适呢?先行教育其实仅就托福写作机经来说,根本就不用预测,在中国大陆,其实大多重复的就是前一年北美的真题,其差别只是,在2 ...

iOS 视频播放横屏,隐藏状态栏

MPMoviePlayerViewController *moviePlayerViewController = [[MPMoviePlayerViewController alloc] init]; ...

删除数组中某一项并输出删除后的数组

方法一: package delete;import java.util.Scanner;public class delete { public static void main(String[] ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.