scrapy中xpath、css用法

一、实验环境

1.Windows7x64_SP1

2.anaconda3 + python3.7.3(anaconda集成,不需单独安装)

3.scrapy1.6.0

二、用法举例

1.开启scrapy shell,在命令行输入如下命令:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

结果如下:

2.提取a节点

  • xpath中用法

result = response.xpath(‘//a‘)

结果如下:

[<Selector xpath=‘//a‘ data=‘<a href="image1.html">Name: My image 1 <‘>,
 <Selector xpath=‘//a‘ data=‘<a href="image2.html">Name: My image 2 <‘>,
 <Selector xpath=‘//a‘ data=‘<a href="image3.html">Name: My image 3 <‘>,
 <Selector xpath=‘//a‘ data=‘<a href="image4.html">Name: My image 4 <‘>,
 <Selector xpath=‘//a‘ data=‘<a href="image5.html">Name: My image 5 <‘>]
  • css中用法

result = response.css(‘a‘)

结果如下:

[<Selector xpath=‘descendant-or-self::a‘ data=‘<a href="image1.html">Name: My image 1 <‘>,
 <Selector xpath=‘descendant-or-self::a‘ data=‘<a href="image2.html">Name: My image 2 <‘>,
 <Selector xpath=‘descendant-or-self::a‘ data=‘<a href="image3.html">Name: My image 3 <‘>,
 <Selector xpath=‘descendant-or-self::a‘ data=‘<a href="image4.html">Name: My image 4 <‘>,
 <Selector xpath=‘descendant-or-self::a‘ data=‘<a href="image5.html">Name: My image 5 <‘>]

  

3.查看result的类型

 type(result)

结果如下:

scrapy.selector.unified.SelectorList

说明:result为Selector组成的列表,也是SelectList类型,他们都可以继续调用xpath()和css()等方法,进一步提取数据。

4.查看result提取数据全部内容,使用extract()函数

result.extract()  

结果如下:

[‘<a href="image1.html">Name: My image 1 <br><img src="image1_thumb.jpg"></a>‘,
 ‘<a href="image2.html">Name: My image 2 <br><img src="image2_thumb.jpg"></a>‘,
 ‘<a href="image3.html">Name: My image 3 <br><img src="image3_thumb.jpg"></a>‘,
 ‘<a href="image4.html">Name: My image 4 <br><img src="image4_thumb.jpg"></a>‘,
 ‘<a href="image5.html">Name: My image 5 <br><img src="image5_thumb.jpg"></a>‘]

5.提取节点内容

  • xpath中用法,使用text()函数

response.xpath(‘//a/text()‘)

结果如下:

[<Selector xpath=‘//a/text()‘ data=‘Name: My image 1 ‘>,
 <Selector xpath=‘//a/text()‘ data=‘Name: My image 2 ‘>,
 <Selector xpath=‘//a/text()‘ data=‘Name: My image 3 ‘>,
 <Selector xpath=‘//a/text()‘ data=‘Name: My image 4 ‘>,
 <Selector xpath=‘//a/text()‘ data=‘Name: My image 5 ‘>]

查看HTML内容

response.xpath(‘//a/text()‘).extract()

结果如下:

[‘Name: My image 1 ‘,
 ‘Name: My image 2 ‘,
 ‘Name: My image 3 ‘,
 ‘Name: My image 4 ‘,
 ‘Name: My image 5 ‘]
  • css中用法

response.css(‘a::text‘).extract()

结果如下:

[‘Name: My image 1 ‘,
 ‘Name: My image 2 ‘,
 ‘Name: My image 3 ‘,
 ‘Name: My image 4 ‘,
 ‘Name: My image 5 ‘]

    

6.提取属性值

  • xpath中用法,使用/@属性名(如/@href)

response.xpath(‘//a/@href‘).extract()

结果如下:

[‘image1.html‘, ‘image2.html‘, ‘image3.html‘, ‘image4.html‘, ‘image5.html‘]
  • css中用法
response.css(‘a::attr("href")‘).extract()

结果如下:

[‘image1.html‘, ‘image2.html‘, ‘image3.html‘, ‘image4.html‘, ‘image5.html‘] 

  

7.提取节点内部子节点

  • xpath中用法,/子节点名  

response.xpath(‘//a/img‘).extract()

结果如下:

[‘<img src="image1_thumb.jpg">‘,
 ‘<img src="image2_thumb.jpg">‘,
 ‘<img src="image3_thumb.jpg">‘,
 ‘<img src="image4_thumb.jpg">‘,
 ‘<img src="image5_thumb.jpg">‘]
  • css中用法

response.css(‘a img‘).extract()

结果如下:

[‘<img src="image1_thumb.jpg">‘,
 ‘<img src="image2_thumb.jpg">‘,
 ‘<img src="image3_thumb.jpg">‘,
 ‘<img src="image4_thumb.jpg">‘,
 ‘<img src="image5_thumb.jpg">‘]

  

  

再提取其中的src属性值,与步骤6相同

  • xpath用法

response.xpath(‘//a/img/@src‘).extract()
  • css用法

response.css(‘a img::attr("src")‘).extract()

  

8.公用方法

  • extract_first()  #用于提取第一个元素
  • extract_first(‘default value‘)   #同上,添加默认参数

原文地址:https://www.cnblogs.com/hester/p/11371384.html

时间: 2024-11-04 04:37:04

scrapy中xpath、css用法的相关文章

scrapy中Selectors的用法

>>> response.xpath('//base/@href').extract() >>> response.css('base::attr(href)').extract() >>> response.xpath('//a[contains(@href, "image")]/@href').extract() >>> response.css('a[href*=image]::attr(href)').ex

scrapy中对于item的把控

其实很简单,就是想要存储的位置发生改变.直接看例子,然后触类旁通. 以大众点评 评论的内容为例 ,位置:http://www.dianping.com/shop/77489519/review_more?pageno=1 数据存储形式由A 变成B A: 展开的话这样子: B: 本质上看,就是多个相同类型的item可以合并,不需要那么多,分别来看下各自的代码: A: class GengduopinglunSpider(scrapy.Spider): name = 'gengduopinglun'

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息(两种方式)

前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建scrapy爬虫框架的第一个项目(下) 关于Scrapy爬虫项目运行和调试的小技巧(上篇) 关于Scrapy爬虫项目运行和调试的小技巧(下篇) 今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息.在Scrapy中,其提供了两种数据提取的方式,一种是Xpath选择器,一种是C

CSS学习笔记(9)--详解CSS中:nth-child的用法

详解CSS中:nth-child的用法 前端的哥们想必都接触过css中一个神奇的玩意,可以轻松选取你想要的标签并给与修改添加样式,是不是很给力,它就是":nth-child". 下面我将用几个典型的实例来给大家讲解:nth-child的实际用途: Tips:还用低版本的IE浏览器的哥们请绕过! :nth-child(2)选取第几个标签,"2可以是你想要的数字" .demo01 li:nth-child(2){background:#090} :nth-child(n

css中!important的用法总结

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-

web中的CSS、Xpath等路径定位方法学习

今天不到八点就到公司了,来的比较早,趁着有点时间,总结下web中的CSS.Xpath等路径定位定位的方式吧! 简单的介绍下xpath和css的定位 理论知识就不罗列了 还是利用博客园的首页.直接附上代码: 这个是xpath 1 #!/usr/bin/env python 2 # -*- coding: utf_8 -*- 3 4 from learn_webdriver import Webdriver 5 from selenium import webdriver 6 from seleni

Scrapy中对xpath使用re

Scrapy中使用xpath时,根据xpath的语法不一定能得到想要的. 如下面的html源码: 1 <div class="db_contout"> <div class="db_cont"> <div class="details_nav"> <a href="http://movie.mtime.com/79055/addimage.html" class="db_ad

详解CSS中:nth-child的用法_大前端

http://www.daqianduan.com/3737.html 前端的哥们想必都接触过css中一个神奇的玩意,可以轻松选取你想要的标签并给与修改添加样式,是不是很给力,它就是":nth-child". 下面我将用几个典型的实例来给大家讲解:nth-child的实际用途: Tips:还用低版本的IE浏览器的哥们请绕过! :nth-child(2)选取第几个标签,"2可以是你想要的数字" .demo01 li:nth-child(2){background:#0

一个CSS中Z-index的用法

一个CSS中Z-index的用法 CSS教程:彻底掌握Z-index属性 大多数的CSS属性都很容易使用.常常,当您对标记语言的元素使用CSS属性时,产生的结果会随着您刷新页面而立即呈现.而另一些CSS属性,却会有一些复杂,且只能在给定的环境下才会工作. Z-index属性便属于上面所说的后面的那一组.Z-index无疑的比其他任何属性都会频繁的导致(兼容性)上 的混乱和(开发者心理上)的挫败感.但滑稽的是,一旦你真正理解了Z-index,你会发现它却是一个非常容易使用的属性,并且会为解决很多l