Scrapy里Selectors 四种基础的方法

在Scrapy里面，Selectors 有四种基础的方法
xpath()：返回一系列的selectors，每一个select表示一个xpath参数表达式选择的节点
css()：返回一系列的selectors，每一个select表示一个css参数表达式选择的节点
extract()：返回一个unicode字符串，为选中的数据
re()：返回一串一个unicode字符串，为使用正则表达式抓取出来的内容

/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
以上只是几个使用XPath的简单例子，但是实际上XPath非常强大。
可以参照W3C教程

我们可以用如下代码来抓取这个<li>标签：

sel.xpath(‘//ul/li‘)

从<li>标签中，可以这样获取网站的描述：

sel.xpath(‘//ul/li/text()‘).extract()

可以这样获取网站的标题：

sel.xpath(‘//ul/li/a/text()‘).extract()

可以这样获取网站的超链接：

sel.xpath(‘//ul/li/a/@href‘).extract()

原文地址：https://www.cnblogs.com/zhouwp/p/8312964.html

时间： 2024-10-12 16:37:07

Scrapy里Selectors 四种基础的方法的相关文章

产品经理常用的四种需求收集方法简述

A 客户访谈客户访谈是通过面对面的交流方式了解具体客户对产品.对流程的需求.观点和看法. 客户访谈的内容可以包括: 1.了解哪些需求对客户比较重要. 2.就了解到的一些需求请客户协助进行优先排序. 3.就问题改进建议的初步想法与客户进行讨论,确认是否能够满足客户需求. 客户访谈的优点包括: 1.由于是面对面的交流,因此在调查内容上更加灵活,可以随时根据问答状况就一些内容进行深入讨论,获得更多的客户感受. 2.客户可以再调查人的协助下,进行一些较为复杂的问卷调查. 3.客户访谈方式的适用面广,可

四种数据保持方法

IOS 四种保存数据的方式 (2013-04-02 15:04:53) 转载▼ 在iOS开发过程中,不管是做什么应用,都会碰到数据保存的问题.将数据保存到本地,能够让程序的运行更加流畅,不会出现让人厌恶的菊花形状,使得用户体验更好.下面介绍?一下数据保存的方式: 1.NSKeyedArchiver:采用归档的形式来保存数据,该数据对象需要遵守NSCoding协议,并且该对象对应的类必须提供encodeWithCoder:和initWithCoder:方法.前?一个方法告诉系统怎么对对象进行编

php四种基础排序算法的运行时间比较！

/** * php四种基础排序算法的运行时间比较 * @authors Jesse (jesse152@163.com) * @date 2016-08-11 07:12:14 */ //冒泡排序法 function bubbleSort($array){ $temp = 0; for($i = 0;$i < count($array) -1;$i++){ for($j = 0;$j < count($array) - 1 -$i;$j++){ if($array[$j] > $arra

php四种基础排序算法的运行时间比较

/** * php四种基础排序算法的运行时间比较 * @authors Jesse (jesse152@163.com) * @date 2016-08-11 07:12:14 */ //冒泡排序法 function bubbleSort($array){ $temp = 0; for($i = 0;$i < count($array) -1;$i++){ for($j = 0;$j < count($array) - 1 -$i;$j++){ if($array[$j] > $arra

笔试算法题（53）：四种基本排序方法的性能特征（Selection，Insertion，Bubble，Shell）

四种基本算法概述: 基本排序:选择,插入,冒泡,希尔.上述算法适用于小规模文件和特殊文件的排序,并不适合大规模随机排序的文件.前三种算法的执行时间与N2成正比,希尔算法的执行时间与N3/2(或更快)成正比: 前三种算法在平均,最坏情况下都是N2,而且都不需要额外的内存:所以尽管他们的运行时间只相差常数倍,但运行方式不同: 对于已经就序的序列而言,插入排序和冒泡排序的运行时间都是O(N),但是选择排序的时间仍旧是O(N^2): 因为Insertion和Bubble都是相邻项间的比较交换,所以不会出

iOS中常用的四种数据持久化方法简介

iOS中常用的四种数据持久化方法简介 iOS中的数据持久化方式,基本上有以下四种:属性列表.对象归档.SQLite3和Core Data 1.属性列表涉及到的主要类:NSUserDefaults,一般 [NSUserDefaults standardUserDefaults]就够用了 @interface User : NSObject <NSCoding>@property (nonatomic, assign) NSInteger userID;@property (nonatomic,

四种垂直居中的方法

四种垂直居中的方法显示效果: 代码: 1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta charset="utf-8" /> 5 <title>四种垂直居中的方法</title> 6 </head> 7 <body> 8 <h1>方法一:</h1> 9 <div style="width:200px;

安卓企业开发(三) activity的四种经典传值方法

开发中遇到多个activity的传值问题相邻两个之间的传值或者多个三个以上之间的传值问题但是很多同学这方面经验还是不足,说下常用的开发场景 1 一般的注册或者添加某项信息界面就会遇activity传值问题 2 比如我在一个界面提交新息需要打开一个新的界面选择里面的信息回到当前activty的时候现在说下比较经典的四种比较经典的传值方法一如果是两个相邻activity之间的传值: 可以用Intent传值对象和单个属性都可以都可以 Intent intent =new Inten

Java_LIST使用方法和四种遍历arrayList方法

1.List接口提供的适合于自身的常用方法均与索引有关,这是因为List集合为列表类型,以线性方式存储对象,可以通过对象的索引操作对象. List接口的常用实现类有ArrayList和LinkedList,在使用List集合时,通常情况下声明为List类型,实例化时根据实际情况的需要,实例化为 ArrayList或LinkedList,例如:List<String> l = new ArrayList<String>();// 利用ArrayList类实例化List集合

猜你喜欢

“[email protected]'s password:”说明ssh互信没有建立起来

ssh-keygen -t dsa出现提示都回车就行.cd ~/.sshcat id_dsa.pub >> authorized_keys然后ssh localhost如果不需要密码就是设 ...

每天一个Linux命令（2）：ls命令

版权声明更新:2017-04-26博主:LuckyAlan联系:[email protected]声明:吃水不忘挖井人,转载请注明出处! 1 文章介绍本文介绍了Linux下命令ls. 2 开发平台接 ...

顺序队列的模板

///page61操作,非链式,顺式 #include <stdio.h> #include <stdlib.h> #include <malloc.h> #def ...

在上一次的结对编程中,我的结对队友是方俊杰 ,大家都称他为“JJ师兄”. 我们两个彼此在合作中发现错误并在合作中一起进步. First(汉堡上层面包): JJ他的JAVA功底比我扎实很多,所 ...

MyBatis Generator配置文件翻译

<classPathEntry> 驱动文件指定配置项 <classPathEntry location="/Program Files/IBM/SQLLIB/java/db ...

android checkbox 小记

? 1 2 3 4 5 6 7 <CheckBox android:id="@+id/cbCheckBox" android:layout_width=& ...

登录页面简单模板

一 div+glyphicon图标,效果图如下: 代码如下: <!-- <%@ page language="java" contentType="text ...

手机安全卫士——主界面的开发

activity_home.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout ...

题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1174 题意:中文题诶- 思路:RMQ模板题关于RMQ: h ...

[Immutable.js] Converting Immutable.js Structures to Javascript and other Immutable Types

Immutable.js provides several conversion methods to migrate one structure to another. Each Immutable ...

点击事件的确认取消对话框。

1 AlertDialog dialog = new AlertDialog.Builder(this).create(); 2 dialog.setTitle("对话框"); 3 ...

ActionBar+DrawerLayout实现网易新闻客户端首页

一.概述随着android版本的不断的更新,google推出了越来越多的高级组件,采用这些官方组件我们可以方便的实现一些以前需要通过复杂编码或者使用第三方组件才能实现的效果,比如slidingmen ...

响应式web设计的优化

在响应式网页的设计过程中,其中也会涉及到一些用户体验方面的问题和弊端,需要进一步的优化. (1)减轻Javascript库负载对于移动端来说,jQuery表现的太过厚重,而现在针对移动端的状态来说, ...

电磁频谱划分

不同频段的电磁波的传播方式和特点各不相同,所以它们的用途也就不同.在无线电频率分配上有一点需要特别注意的,就是干扰问题.因为电磁波是按照其频段的特点传播的,此外再无什么规律来约束它.因此,如果两个电台 ...

国外程序员经常用的二十八个学习网站

无论你是想转行,成为一名全职程序员,或者想尝试打造一个网站或应用程序,或者只是希望提高了你的技能,学习代码无疑是每个程序员都绕不开的一关.尽管作为一个程序员可能不适合每一个人,但是还是有很多网站适合来 ...

Linux忘记root密码

CentOS: 1.在grub引导界面按“e” 进入编辑模式 2.选择 kernel /…… 然后在“e” 3.在后面加上“ single” . 再按“b” 4.输入:“passwd root ...

瑞临拉面开业啦！全城最低，量足味美，欢迎大家前来品尝。（IT程序员->金融业+餐饮业）

前门(还盖着红布,准备开业咯) 准备走进店面品尝啦!~ 看看前方价格吧!~ 放大看清楚些!~ 面不贵质量如何?请放心!为了保证质量我们和正规企业签订供销合同,在店里最显眼位置,来店里你就能看到哦. 大 ...

获取屏幕宽度

alert($(window).height()); //浏览器当前窗口可视区域高度 alert($(document).height()); //浏览器当前窗口文档的高度 alert($(docum ...

VirtualHost 的配置

作业: vhost1 pma.jixiang.com 登陆phpmyadmin 并使用https vhost2 wp.jixiang.com 登陆wordpress 做法:在/etc/httpd/co ...

重读“javascript高级程序设计（第三版）”--原型

上周末出去玩,坐车上的时候百般无聊,就看起了手机上的电子版的高三,很有些体会,抽些时间总结出来. 原型,作为javascript中最重要的一个对象之一,很少有人能熟练准确的说出关于它的所有知识点.现在 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.