爬虫文件存储-2:MongoDB

1.连接MongoDB

连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient,一般来说传入 MongoDB 的 IP 及端口即可,第一个参数为地址 host,第二个参数为端口 port,端口如果不传默认是 27017。

import pymongo
client = pymongo.MongoClient(host=‘localhost‘, port=27017)
# client = MongoClient(‘mongodb://localhost:27017/‘)

2.指定数据库

import pymongo
client = pymongo.MongoClient(host=‘localhost‘, port=27017)
# client = MongoClient(‘mongodb://localhost:27017/‘)
db = client.test
# db = client[‘test‘]

3.指定集合

MongoDB 的每个数据库又包含了许多集合 Collection,也就类似与关系型数据库中的表

import pymongo
client = pymongo.MongoClient(host=‘localhost‘, port=27017)
# client = MongoClient(‘mongodb://localhost:27017/‘)
db = client.test
# db = client[‘test‘]
collection = db.students
# collection = db[‘students‘]

4.插入数据

在 MongoDB 中,每条数据其实都有一个 _id 属性来唯一标识,如果没有显式指明 _id,MongoDB 会自动产生一个 ObjectId 类型的 _id 属性。insert() 方法会在执行后返回的 _id 值。

也可以同时插入多条数据,只需要以列表形式传递即可,返回的结果是对应的 _id 的集合。

import pymongo
client = pymongo.MongoClient(host=‘localhost‘, port=27017)
# client = MongoClient(‘mongodb://localhost:27017/‘)
db = client.test
# db = client[‘test‘]
collection = db.students
# collection = db[‘students‘]

# 插入单条数据
student = {
    ‘id‘: ‘20170101‘,
    ‘name‘: ‘Jordan‘,
    ‘age‘: 20,
    ‘gender‘: ‘male‘
}

result = collection.insert_one(student)
print(result)
print(result.inserted_id) # 返回的是InsertOneResult 对象,我们可以调用其 inserted_id 属性获取 _id
"""
运行结果:
<pymongo.results.InsertOneResult object at 0x10d68b558>
5932ab0f15c2606f0c1cf6c5
"""

# 插入多条数据
student1 = {
    ‘id‘: ‘20170101‘,
    ‘name‘: ‘Jordan‘,
    ‘age‘: 20,
    ‘gender‘: ‘male‘
}

student2 = {
    ‘id‘: ‘20170202‘,
    ‘name‘: ‘Mike‘,
    ‘age‘: 21,
    ‘gender‘: ‘male‘
}

result = collection.insert_many([student1, student2])
print(result)
print(result.inserted_ids) # insert_many() 方法返回的类型是 InsertManyResult,调用inserted_ids 属性可以获取插入数据的 _id 列表
"""
运行结果:
<pymongo.results.InsertManyResult object at 0x101dea558>
[ObjectId(‘5932abf415c2607083d3b2ac‘), ObjectId(‘5932abf415c2607083d3b2ad‘)]

"""

5.查询数据

可以利用 find_one() 或 find() 方法进行查询,find_one() 查询得到是单个结果,find() 则返回一个生成器对象。

import pymongo
client = pymongo.MongoClient(host=‘localhost‘, port=27017)
# client = MongoClient(‘mongodb://localhost:27017/‘)
db = client.test
# db = client[‘test‘]
collection = db.students
# collection = db[‘students‘]

result = collection.find_one({‘name‘: ‘Mike‘})
print(type(result)) # 查询 name 为 Mike 的数据,它的返回结果是字典类型
print(result) # 多了一个 _id 属性,这就是 MongoDB 在插入的过程中自动添加的
"""
<class ‘dict‘>
{‘_id‘: ObjectId(‘5c502697e0b72c0d90eeee22‘), ‘id‘: ‘20170202‘, ‘name‘: ‘Mike‘, ‘age‘: 21, ‘gender‘: ‘male‘}
"""

# 也可以直接根据 ObjectId 来查询,这里需要使用 bson 库里面的 ObjectId
"""
from bson.objectid import ObjectId

result = collection.find_one({‘_id‘: ObjectId(‘593278c115c2602667ec6bae‘)})
print(result)

"""

# 多条数据的查询,使用 find() 方法
results = collection.find({‘age‘: 20})
print(results)
for result in results:
    print(result) # 返回结果是 Cursor 类型,相当于一个生成器,我们需要遍历取到所有的结果,每一个结果都是字典类型

# 要查询年龄大于 20 的数据
results = collection.find({‘age‘: {‘$gt‘: 20}}) # 查询的条件键值是一个字典,其键名为比较符号 $gt,意思是大于,键值为 20

符号


含义


示例


$lt


小于


{‘age‘: {‘$lt‘: 20}}


$gt


大于


{‘age‘: {‘$gt‘: 20}}


$lte


小于等于


{‘age‘: {‘$lte‘: 20}}


$gte


大于等于


{‘age‘: {‘$gte‘: 20}}


$ne


不等于


{‘age‘: {‘$ne‘: 20}}


$in


在范围内


{‘age‘: {‘$in‘: [20, 23]}}


$nin


不在范围内


{‘age‘: {‘$nin‘: [20, 23]}}

# 还可以进行正则匹配查询,例如查询名字以 M 开头的学生数据
results = collection.find({‘name‘: {‘$regex‘: ‘^M.*‘}}) # 使用了 $regex 来指定正则匹配,^M.* 代表以 M 开头的正则表达式s

符号


含义


示例


示例含义


$regex


匹配正则


{‘name‘: {‘$regex‘: ‘^M.*‘}}


name 以 M开头


$exists


属性是否存在


{‘name‘: {‘$exists‘: True}}


name 属性存在


$type


类型判断


{‘age‘: {‘$type‘: ‘int‘}}


age 的类型为 int


$mod


数字模操作


{‘age‘: {‘$mod‘: [5, 0]}}


年龄模 5 余 0


$text


文本查询


{‘$text‘: {‘$search‘: ‘Mike‘}}


text 类型的属性中包含 Mike 字符串


$where


高级条件查询


{‘$where‘: ‘obj.fans_count == obj.follows_count‘}


自身粉丝数等于关注数

 

原文地址:https://www.cnblogs.com/sanduzxcvbnm/p/10335391.html

时间: 2024-11-06 07:10:39

爬虫文件存储-2:MongoDB的相关文章

爬虫文件存储-3:Redis

前提条件: 安装并运行redis服务端程序,安装RedisPy库 说明:Redis 是 StrictRedis 的子类,它的主要功能是用于向后兼容旧版本库里的几个方法,官方推荐使用 StrictRedis. 1.连接 # 方法1 from redis import StrictRedis redis = StrictRedis(host='localhost',port=6379,db=0,password='foobar2000') redis.set('name', 'Bob') print

爬虫文件存储-1:mysql

1.连接并创建数据库 import pymysql db = pymysql.connect(host='localhost', user='root', password='root', port=3306) cursor = db.cursor() cursor.execute('SELECT VERSION()') data = cursor.fetchone() print('Database version:', data) cursor.execute("CREATE DATABAS

用Scrapy爬虫爬取豆瓣电影排行榜数据,存储到Mongodb数据库

爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递增,最大为225,所以可以利用这个条件来发Request请求 本文只取了三个字段,电影名.评分和介绍,当然你想去更多信息也是可以的 item["name"]:电影名 item["r

MongoDb gridfs-ngnix文件存储方案 - 图片

http://www.cnblogs.com/wintersun/p/4622205.html 在各类系统应用服务端开发中,我们经常会遇到文件存储的问题. 常见的磁盘文件系统,DBMS传统文件流存储.今天我们看一下基于NoSQL数据库MongoDb的存储方案.笔者环境 以CentOS 6.5,MongoDb 2.6.3,  Nginx-1.4.7 为例,您需要了解Linux常用命令. 先来回顾一下MongoDb的内部文件结构 MongoDB在数据存储上按命名空间来划分,一个collection是

MongoDb gridfs-ngnix文件存储方案

      在各类系统应用服务端开发中,我们经常会遇到文件存储的问题. 常见的磁盘文件系统,DBMS传统文件流存储.今天我们看一下基于NoSQL数据库MongoDb的存储方案.笔者环境 以CentOS 6.5,MongoDb 2.6.3,  Nginx-1.4.7 为例,您需要了解Linux常用命令. 先来回顾一下MongoDb的内部文件结构 MongoDB在数据存储上按命名空间来划分,一个collection是一个命名空间,一个索引也是一个命名空间 同一个命名空间的数据被分成很多个Extent

python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb)

说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就可以进行使用, 还是接着上一卷在上进行修改: 来看下结果: 看到没有爬虫的完善就像个公式,不断嵌套 原文地址:https://www.cnblogs.com/woshiruge/p/8407057.html

利用scrapy抓取网易新闻并将其存储在mongoDB

好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,近期也看了一点mongoDB.顺便小用一下.体验一下NoSQL是什么感觉.言归正传啊.scrapy爬虫主要有几个文件须要改动.这个爬虫须要你装一下mongodb数据库和pymongo,进入数据库之后.利用find语句就能够查看数据库中的内容,抓取的内容例如以下所看到的: { "_id" : ObjectId("5577ae44745d785e65fa8686"), &qu

Class 15 - 1 数据存储——文件存储

保存的形式可以多种多样,最简单的形式是 接保存为文本文件,如 TXT.JSON.CSV等.还可以保存到数据库中,如关系型数据库 MySQL ,非关系型数据库 MongoDB.Redis等. 一.TXT文本存储  基本实例: 可以用 requests 将网页源代码获取下来,然后使用 pyquery 解析库解析,接下来将提取的标题. 回答者. 回答保存到文本,代码: import requests from pyquery import PyQuery as pq url = 'https://ww

selenium爬取NBA并将数据存储到MongoDB

from selenium import webdriver driver = webdriver.Chrome() url = 'https://www.basketball-reference.com/leagues/NBA_2019.html' driver.get(url)# 操作等待 driver.implicitly_wait(3) list_name = driver.find_elements_by_xpath('//*[@id="team-stats-per_game"