scrapy框架Selector提取数据

从页面中提取数据的核心技术是HTTP文本解析，在python中常用的模块处理：

　　BeautifulSoup 非常流行的解析库，API简单，但解析的速度慢。

　　lxml 是一套使用c语言编写的xml解析库，解析速度快，API相对比较复杂。

Scrapy中的Selector类是基于lxml库建立的，并且简化了API接口。在使用的过程中先使用xpath或者css选择器选中页面中要提取的数据，然后进行提取。

提取数据

调用Selector或者SelectList对象的以下几种方法可将选中的内容进行提取

　　extract() 返回选中内容的Unicode字符串。

　　extract_first() SelectorList专有，返回其中第一个Selector对象调用extract方法。通常SelectorList中只含有一个Selector对象的时候选择调用该方法。

　　re() 使用正则表达式来提取选中内容中的某部分。

　　　　举个例子

　　　　　　selector.xpath(‘.//b/text()‘) .extract #[‘价格：99.00元’，‘价格：88.00元’，‘价格：88.00元’]

　　　　　　selector.xpath(‘.//b/text()‘).re(‘\d+\.\d+‘) #[ ‘99.00‘,‘88.00‘,‘88.00‘]

　　re_first() 返回SelectorList对象中的第一个Selector对象调用re方法。

　　　　　　selector.xpath(‘.//b/text()‘).re_first(‘\d+\.\d+‘) # ‘99.00‘

实际的开发过程中，几乎不需要手动创建Selector对象，，Response对象以自身参数自动创建Selector对象

　　　　　　　response.xpath(‘.//h1/text‘).extract() # [ ‘song‘,‘shi‘,‘chao‘]

　　　　　　　response.css(‘li::text‘).extract() # [ ‘song‘,‘shi‘,‘chao‘]

xpath选择器

　　xpath即xml路径语言，用来确定xml文档中某个部分的语言，xml文档（html属于xml）是一系列节点构成的树。

基础语法

/ 选中文档的根描述一个从根开始的绝对路径 ./表示从当前节点选取（比如提取了一部分，还需要从提取出来里面进行提取就会使用，如果不加 . 会从整个文档中开始提取）

. 选中当前节点用来描述相对路径

.. 选中当前节点的父节点用来描述相对路径

ELEMENT 选中子节点中所有的ELEMENT元素节点

//ELEMENT 选中子孙节点中所有的ELEMENT元素节点

* 选中所有元素子节点

text() 选中所有文本子节点

@ATTR 选中名为ATTR的属性节点

@* 选中所有的属性节点

[谓语] 谓语用来查找某个特定的节点或者包含某个特定值的节点

举例

　　response.xpath(‘/html/body/div‘) #选取body下的所有div

　　response.xpath(‘//a‘) #选中文档所有a

　　response.xpath(‘/html/body//div‘) #选中body下的所有节点中的div，无论在什么位置

　　response.xpath(‘//a/text()‘) #选取所有a的文本

　　response.xpath(‘/html/div/*‘) #选取div的所有元素子节点

　　response.xpath(‘//div/*/img‘) #选取div孙节点的所有img

　　response.xpath(‘//img/@src‘) #选取所有img的src属性

　　response.xpath(‘//a[1]/img/@*‘) #选取第一个a下img的所有属性

　　response.xpath(‘//a[2]‘) #所有a中的第2个

　　response.xpath(‘//a[last()]‘) #所有a中的最后一个 (‘/a[last()-1]‘)#倒第二个（‘//a[position()<=3]‘）#使用position函数选中前三个（‘//div[@id]‘）#选中所有含有id属性的div （‘//div[@id="song"]‘）#选中所有id属性为song的div

　　response.xpath(‘//p[contains(@class,‘song‘)]‘) #选择class属性中含有‘song’的p元素

　　response.xpath(‘//div/a | //div/p‘) 或者，页面中可能是a可能是p

css选择器

　　css即层叠样式表，选择器不如xpath强大，原理就是选择的时候翻译成xpath表达式在调用xpath方法。

* 选择所有节点

#container 选择id为container的节点

.container 选择class包含container的节点

li a 选择所有 li 下的所有 a 节点

ul + p 选择所有ul后面的第一个p元素

#container > ul 选择id为container的第一个ul节点

a[class] 选取所有有class属性的a元素

a[href="http://b.com"] 含有href="http://b.com"的a元素

a[href*=‘job‘] 包含job的a元素

a[href^=‘https‘] 开头是https的a元素

a[href$=‘cn‘] 结尾是cn的a元素

response.css(‘div a::text‘).extract() 所有div下所有a的文本

response.css(‘div a::attr(href)‘).extract() href的值

response.css(‘div>a:nth-child(1)‘) 选中每个div的第一个a > 会设定只在子节点中找，不会到孙节点中

response.css(‘div:not(#container)‘) 选取所有id不是container的div

response.css(‘div:first-child>a:last-child‘) 第一个div中最后一个a

原文地址：https://www.cnblogs.com/master-song/p/8948210.html

时间： 2024-10-20 23:52:50

scrapy框架Selector提取数据的相关文章

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

一前言二网络爬虫简介审查元素简单实例 1 requests安装 2 简单实例三爬虫实战小说下载 1 实战背景 2 小试牛刀 3Beautiful Soup 3整合代码优美壁纸下载 1实战背景 2实战进阶 3整合代码爱奇艺VIP视频下载 1实战背景 2实战升级 3编写代码四总结一前言强烈建议:请在电脑的陪同下,阅读本文.本文以实战为主,阅读过程如稍有不适,还望多加练习. 本文的实战内容有: 网络小说下载(静态网站) 优美壁纸下载(动态网站) 爱奇艺VIP视频下载二

Scrapy框架之基于RedisSpider实现的分布式爬虫

需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬取实现 1.项目和爬虫文件创建 $ scrapy startproject wangyiPro $ cd wangyiPro/ $ scrapy genspider wangyi news.163.com # 基于scrapy.Spider创建爬虫文件 2.爬虫文件编写--解析新闻首页获取四个板块的

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │

数据之路 - Python爬虫 - Scrapy框架

一.Scrapy框架入门 1.Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,榄块之间的榈合程度低,可扩展性极强,可以灵活完成各种需求. Engine:引擎,处理整个系统的数据流处理.触发事务,是整个框架的核心. Item:项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该Item对象. Scheduler:调度器,接受引擎发过来的请求并将其加入队列中, 在引擎再次请求的时候将请求提供给引擎. Downloader:下载

db数据库利用第三方框架进行提取和解析数据

db的数据包用从github上下载的三方框架进行解析和数据提取,格式一般为数组和字典.db的查看工具是firefox上的解析db插件SQLite 三方框架为FMDB #import "ViewController.h" //1. 引入头文件,需要引入libsqlite3的库 #import "FMDB.h" #import "Word.h" @interface ViewController () @end @implementation Vie

爬虫(十七)：Scrapy框架(四) 对接selenium爬取京东商品数据

1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取JavaScript渲染的页面有两种方式.一种是分析Ajax请求,找到其对应的接口抓取,Scrapy同样可以用此种方式抓取.另一种是直接用 Selenium模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面最终结果即可,可见即可爬.那么,如果Scrapy可以对接S

Python学习笔记之Scrapy框架入门

创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行站点,并提取Items 写一个Item Pipeline用来存储提取出的Items 新建工程在抓取之前,你需要新建一个Scrapy工程.进入一个你想用来保存代码的目录,然后执行:scrapy startproject tutorial 这个命令会在当前目录下创建一个新目录tutorial,它的结构如下: T:. │ scrapy.cfg │ └─tutorial │ items.py │ pipelines.py

Python2 爬虫（六） -- 初尝Scrapy框架

1.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy官网文档 -- 戳我本来我是基于Python3.5学习爬虫的,但是Python3.x不支持Scrapy框架.即便不支持,也不能就此放弃

python——Scrapy 框架

爬虫的自我修养_4 一.Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy架构图(绿线是