Scrapy系列教程(2)------Item(结构化数据存储结构)

Items

爬取的主要目标就是从非结构性的数据源提取结构性数据,比如网页。 Scrapy提供 Item 类来满足这种需求。

Item 对象是种简单的容器。保存了爬取到得数据。
其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

声明Item

Item使用简单的class定义语法以及 Field 对象来声明。

比如:

import scrapy

class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)

注解

熟悉 Django 的朋友一定会注意到Scrapy Item定义方式与 Django
Models
 非常类似, 只是没有那么多不同的字段类型(Field type),更为简单。

Item字段(Item Fields)

Field 对象指明了每一个字段的元数据(metadata)。比如以下样例中 last_updated 中指明了该字段的序列化函数。

您能够为每一个字段指明不论什么类型的元数据。 Field 对象对接受的值没有不论什么限制。也正是由于这个原因,文档也无法提供全部可用的元数据的键(key)參考列表。

Field 对象中保存的每一个键能够由多个组件使用,而且仅仅有这些组件知道这个键的存在。您能够依据自己的需求,定义使用其它的Field 键。
设置 Field 对象的主要目的就是在一个地方定义好全部的元数据。

一般来说,那些依赖某个字段的组件肯定使用了特定的键(key)。您必须查看组件相关的文档,查看其用了哪些元数据键(metadata key)。

须要注意的是。用来声明item的 Field 对象并没有被赋值为class的属性。
只是您能够通过Item.fields 属性进行訪问。

以上就是全部您须要知道的怎样声明item的内容了。

与Item配合

接下来以 下边声明 的 Product item来演示一些item的操作。您会发现API和 dict
API
 很相似。

创建item

>>> product = Product(name=‘Desktop PC‘, price=1000)
>>> print product
Product(name=‘Desktop PC‘, price=1000)

获取字段的值

>>> product[‘name‘]
Desktop PC
>>> product.get(‘name‘)
Desktop PC

>>> product[‘price‘]
1000

>>> product[‘last_updated‘]
Traceback (most recent call last):
    ...
KeyError: ‘last_updated‘

>>> product.get(‘last_updated‘, ‘not set‘)
not set

>>> product[‘lala‘] # getting unknown field
Traceback (most recent call last):
    ...
KeyError: ‘lala‘

>>> product.get(‘lala‘, ‘unknown field‘)
‘unknown field‘

>>> ‘name‘ in product  # is name field populated?
True

>>> ‘last_updated‘ in product  # is last_updated populated?
False

>>> ‘last_updated‘ in product.fields  # is last_updated a declared field?
True

>>> ‘lala‘ in product.fields  # is lala a declared field?

False

设置字段的值

>>> product[‘last_updated‘] = ‘today‘
>>> product[‘last_updated‘]
today

>>> product[‘lala‘] = ‘test‘ # setting unknown field
Traceback (most recent call last):
    ...
KeyError: ‘Product does not support field: lala‘

获取全部获取到的值

您能够使用 dict API 来获取全部的值:

>>> product.keys()
[‘price‘, ‘name‘]

>>> product.items()
[(‘price‘, 1000), (‘name‘, ‘Desktop PC‘)]

其它任务

复制item:

>>> product2 = Product(product)
>>> print product2
Product(name=‘Desktop PC‘, price=1000)

>>> product3 = product2.copy()
>>> print product3
Product(name=‘Desktop PC‘, price=1000)

依据item创建字典(dict):

>>> dict(product) # create a dict from all populated values
{‘price‘: 1000, ‘name‘: ‘Desktop PC‘}

依据字典(dict)创建item:

>>> Product({‘name‘: ‘Laptop PC‘, ‘price‘: 1500})
Product(price=1500, name=‘Laptop PC‘)

>>> Product({‘name‘: ‘Laptop PC‘, ‘lala‘: 1500}) # warning: unknown field in dict
Traceback (most recent call last):
    ...
KeyError: ‘Product does not support field: lala‘

扩展Item

您能够通过继承原始的Item来扩展item(加入很多其它的字段或者改动某些字段的元数据)。

比如:

class DiscountedProduct(Product):
    discount_percent = scrapy.Field(serializer=str)
    discount_expiration_date = scrapy.Field()

您也能够通过使用原字段的元数据,加入新的值或改动原来的值来扩展字段的元数据:

class SpecificProduct(Product):
    name = scrapy.Field(Product.fields[‘name‘], serializer=my_serializer)

这段代码在保留全部原来的元数据值的情况下加入(或者覆盖)了 name 字段的 serializer 。

Item对象

classscrapy.item.Item([arg])

返回一个依据给定的參数可选初始化的item。

Item复制了标准的 dict API 。包含初始化函数也同样。Item唯一额外加入的属性是:

fields

一个包括了item全部声明的字段的字典。而不不过获取到的字段。该字典的key是字段(field)的名字,值是 Item声明 中使用到的 Field 对象。

字段(Field)对象

classscrapy.item.Field([arg])

Field 不过内置的 dict 类的一个别名,并没有提供额外的方法或者属性。

换句话说, Field对象完全然全就是Python字典(dict)。被用来基于类属性(class
attribute)的方法来支持 item声明

时间: 2024-10-17 02:36:41

Scrapy系列教程(2)------Item(结构化数据存储结构)的相关文章

MySQL 5.7:非结构化数据存储的新选择

本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL 5.7那样令我激动与期盼,10月MySQL 5.7 GA版本的发布,意味着MySQL数据库终于有能力在传统企业中向商业数据库发起挑战,开源的Linux操作系统干掉了封闭的Unix系统,MySQL会不会再一次逆袭商业产品?目前来看,或许很难,但是机会已经掌握在自己上手,后面的发展就看MySQL团队能

杉岩数据:对象存储是企业海量非结构化数据存储的最佳选择

海量数据的爆炸式增长,使存储技术近五年的发展速度远超过去n年的发展历程.C端用户一个明显的感觉就是:U盘存储容量从过去物以稀为贵的几十M迅速发展到今天几十G.甚至TB级,家用电脑硬盘容量更是TB级标配. 那么,企业级又迎来了怎样的变化? IDC数据显示,到2020年,企业数据总体将达到44ZB,其中80%的数据将会是非结构化数据(图片.视频.归档以及企业级备份等各种数据).显然,海量数据的产生正在促使企业级存储从需求到产品形态都发生了改变. "相对于NAS.SAN这种传统企业级存储解决方案,对象

海量非结构化数据存储难题 ,杉岩数据对象存储完美解决

"过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,但我们必须承认这些只是冰山一角.目前,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据.伴随非结构化数据呈现爆发之势,对象存储市场近两年保持强劲增长,IDC预计,软件定义存储(SDS)市场未来五年复合增长率将达到28.8%." 传统IT架构渐成"过去式" 非结构化数据倒逼存储变革 今天,许多企业已经意识到,结构化数据仅仅是企业所拥有数据的一小部分.与业务信息系统

非结构化数据存储方案

ceph 官方网站:http://docs.ceph.org.cn/ 简单介绍: Ceph是一个开源的分布存储系统,同时提供对象存储.块存储和文件存储.linux内核2.6.34将ceph加入到内核中,红帽基于ceph出了redhat ceph storage. 支持TB级存储 支持高可用.容灾备份(当然了,这是存储的常见功能) 支持上百节点的负载均衡 系统架构: OpenStack Swift 官方网站:https://docs.openstack.org/swift/latest/ 简单介绍

非结构化数据与结构化数据提取----XPath与lxml类库

什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义. XML 被设计为具有自我描述性. XML 是 W3C 的推荐标准 W3School官方文档:http://www.w3school.com.cn/xml/index.asp XML 和 HTML 的区别 数据格式 描述 设计目标 XML Extensible Markup Langu

非结构化数据的存储与查询

当今信息化时代充斥着大量的数据.海量数据存储是一个必然的趋势.然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询.使得如今的 关系数据库存储带来了巨大的挑战.分布存储技术是云计算的基础,主要研究如何存储.组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性.容错性以及成本控制方面面临着更加严峻的挑战[1]. 对于大量的半结构化数据(semi-structure data)和非结构化数据,对其存储和并发计算以及扩展能力而设计出了

结构化、半结构化、非结构化数据

结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析 结构化数据.非结构化数据以及半结构化数据对比 类别 结构化数据 半结构化数据 非结构化数据 数据特征 数据结构字段含义确定,清晰 具有一定结构,但语义不够确定:自描述,数据结构和内容混杂在一起 杂乱无章的数据,很难按照一个概念去进行抽取,无规律性 典型例子 数据库中的表结构 邮件.HTML.报表.资源库 视频.音频.图片.图像.文档.文本等 数据模型 二维表 树.图 无 存储方案 高速存储应用需求.数据备份需求.数据共享需求

什么是结构化数据?什么是半结构化数据?

概述 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字.符号等信息)而且更适合处理非结构化数据(全文文本.图象.声音.影视.超媒体等信息). 非结构化WEB数据库主要是针对非结构化

[转]概念:结构化数据、半结构化数据、非结构数据

原:http://blog.csdn.net/liangyihuai/article/details/54864952 结构化数据.半结构化数据和非结构化数据 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 所以,结构化的数据的存储