网络爬虫_XPath的学习（3）

下面是22个运用XPath语法的实例：

（1）基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径

（2）如果路径以双斜线 // 开头, 则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)

（3）星号 * 表示选择所有由星号之前的路径所定位的元素

（4）方块号里的表达式可以进一步的指定元素, 其中数字表示元素在选择集里的位置, 而last()函数则表示选择集中的最后一个元素.

（5）属性通过前缀 @ 来指定

（6）属性的值可以被用来作为选择的准则, normalize-space函数删除了前部和尾部的空格, 并且把连续的空格串替换为一个单一的空格

（7）count()函数可以计数所选元素的个数

（8）name()函数返回元素的名称, start-with()函数在该函数的第一个参数字符串是以第二个参数字符开始的情况返回true, contains()函数当其第一个字符串参数包含有第二个字符串参数时返回true.

（9）string-length函数返回字符串的字符数,你应该用<替代<, 用>代替>

（10）多个路径可以用分隔符 | 合并在一起

11 child轴(axis)包含上下文节点的子元素, 作为默认的轴,可以忽略不写.

12 descendant (后代)轴包含上下文节点的后代,一个后代是指子节点或者子节点的子节点等等, 因此descendant轴不会包含属性和命名空间节点.

（13）parent轴(axis)包含上下文节点的父节点, 如果有父节点的话

14ancestor轴(axis)包含上下节点的祖先节点, 该祖先节点由其上下文节点的父节点以及父节点的父节点等等诸如此类的节点构成,所以ancestor轴总是包含有根节点,除非上下文节点就是根节点本身.

15.preceding-sibling 轴(axis)包含上下文节点之前的所有兄弟节点

16.following-sibling轴(axis)包含上下文节点之后的所有兄弟节点

17.following轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点

18.following轴(axis)包含同一文档中按文档顺序位于上下文节点之前的所有节点, 除了祖先节点,属性节点和命名空间节点

19.descendant-or-self 轴(axis)包含上下文节点本身和该节点的后代节点

20 ancestor-or-self 轴(axis)包含上下文节点本身和该节点的祖先节点

21 ancestor, descendant, following, preceding 和self轴(axis)分割了XML文档(忽略属性节点和命名空间节点), 不能交迭, 而一起使用则包含所有节点

22 div运算符做浮点除法运算, mod运算符做求余运算, floor函数返回不大于参数的最大整数(趋近于正无穷), ceiling返回不小于参数的最小整数(趋近于负无穷)

时间： 2024-12-29 10:59:08

网络爬虫_XPath的学习（3）的相关文章

网络爬虫_XPath的学习（1）

(1)简介: XPath是一门在XML文档中查找信息的语言,XPath可用来在XML文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上. 因此,对 XPath 的理解是很多高级 XML 应用的基础. XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力.起初 XPath 的提出的

网络爬虫_XPath的学习（2）

(1) XPath Axes(坐标轴) XML 实例文档我们将在下面的例子中使用此 XML 文档: 1 <?xml version="1.0" encoding="ISO-8859-1"?> 2 3 <bookstore> 4 5 <book> 6 <title lang="eng">Harry Potter</title> 7 <price>29.99</price

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

HtmlUnit 网络爬虫菜鸟的学习笔记（二）

这次我以爬新浪微博为例,这个过程太纠结了,参考了好多大神的帖子,不过还是遗留了很多问题,我们慢慢来看,希望大神帮于指正,我的方法暂时来说还是比较挫的登陆问题爬新浪微博首先要登陆,之前爬的妹纸网站,由于不用登陆,所以没这一步,但是爬新浪微博我们必须要先登录,但是要涉及到一个问题,那就是验证码,验证码从我现在百度到的,和自己的理解,感觉暂时还是不能解决的,除非手工输入,因为本身验证码就是防止恶意登陆,防爬虫的,所以建议想试试的朋友用暂时用不输入验证码的账号试试(关于验证码,期盼大神可以给些提示)

HtmlUnit 网络爬虫菜鸟的学习笔记（一）

什么是HtmlUnit HtmlUnit是一个开源的浏览器模拟工具,可以方便我们模拟浏览器的行为,例如打开网页,提交表单等,这样我们可以用他来爬网页官网下载:http://htmlunit.sourceforge.net/ java API:http://htmlunit.sourceforge.net/apidocs/index.html 怎么用HtmlUnit (我的IED是idea,用的maven工程) 在pom文件里导入HtmlUnit的依赖包 <dependency> &l

HtmlUnit 网络爬虫菜鸟的学习笔记（三）

上一篇写到,要是分析每一个url,包括滚动条滚动的url和分页的url就可以构造出来url来访问,从而抓取信息,但是这样要是想把我关注的人的所有微博全部输出的话,岂不是每个关注的人的url都要去看和分析,这样工作量就很大了所以今天刚我就仔细分析了一下的url,发现其实变化量除了page和pagebar这两个参数,还有其他的参数需要关注: 该人的主页id,domain和id,下面说明一下给一个分页的url参考一下 http://weibo.com/u/1645851277?pids=Pl_Of

Python网络爬虫使用总结

网络爬虫使用总结:requests–bs4–re技术路线简要的抓取使用本技术路线就能轻松应对.参见:Python网络爬虫学习笔记(定向) 网络爬虫使用总结:scrapy(5+2结构) 使用步骤: 第一步:创建工程: 第二步:编写Spider: 第二步:编写Item Pipeline: 第四步:优化配置策略: 工程路径: 网络爬虫使用总结:展望(PhantomJS) 如上所有的两条记录路线仅仅是对网页的处理,只能爬取单纯的html代码.就需要引出"PhantomJS",PhantomJ

爬虫学习之一个简单的网络爬虫

这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据.有了数据后可以做数据分析或者通过其他方式重新结构化展示. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫.via 百度百科网络爬虫网络蜘蛛(Web spider)也叫网络爬虫(Web c

python网络爬虫学习资料

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一.爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则

猜你喜欢

20145216 史婧瑶《信息安全系统设计基础》第一周学习总结

20145216 <信息安全系统设计基础>第一周学习总结教材学习内容总结 Linux基础 1.ls命令 ls或ls .显示是当前目录的内容,这里“.”就是参数,表示当前目录,是缺省的可以 ...

ContextUtil 获取bean，bean类型

获取application的上下文,获取bean对象及相关信息 package cn.sccl.common.util; import javax.servlet.http.HttpServletRe ...

论文笔记之：Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model

Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model ICCV 2013 本文 ...

软件设计师考试笔记一：原码、反码、补码及移码

十进制小数转化为二进制小数的方法:对十进制小数乘以2得到的整数部分和小数部分,整数部分即是相应的二进制数码,再用2乘小数部分,结果再取整数部分,如此反复,直到小数部分为0或达到精度为止.第一次得到的为 ...

常用API的注意事项

判断定义为String类型的s1和s2是否相等 ? String s1 = "abc"; ? String s2 = "abc"; //常量池中没有这个字符串对 ...

项目分享技术大会总结

大家好,请看ppt,今天我将讲的是angularjs基本运用和项目实战,首先我们先想一下前端的jquery技术已经这么强了,为什么还需要angularjs框架,它有哪些好的地方和哪些不足的地方还需要弥 ...

bzoj1614[Usaco2007 Jan]Telephone Lines架设电话线*

bzoj1614[Usaco2007 Jan]Telephone Lines架设电话线题意: n个节点,1号节点已经连入互联网,现在需要将整个图连入网络.有K条边可以免费连接,最后总费用为所有连边费 ...

链接的属性href=“？” ？该些什么及优缺点

<a onclick="{jscode}">是很常见的一种js运用方式,使用时经常会加一个href="###"即<a onclick=&quo ...

shell-03

07if条件语句的语法和实战语法: 实战: 01.监控web和数据库的企业案例如何获取数据: 端口监控:netstat.ss.lsof 本地:netstat -lnt | grep 3306 | ...

为GitHub项目加入Travis-CI的自动集成

可以参考这篇文档进行集成:https://docs.travis-ci.com/user/languages/csharp/,只需要三步: 1.创建.travis.yml 2.写入标签 3.试着提交你 ...

beetl插件内部测试版本1.0

安装说明: 本插件是beetl模板语言插件,请放到plugins目录下重启即可.下载临时地址是 http://ibeetl.com/community/?/question/147 如果文件以.bt ...

Spring声明式事务配置管理方法

环境配置项目使用SSH架构,现在要添加Spring事务管理功能,针对当前环境,只需要添加Spring 2.0 AOP类库即可.添加方法: 点击项目右键->Build Path->Add ...

抢红包插件实现原理浅析

抢红包,先看效果图~ 实现自动抢红包,解决问题有两点: 一:如何实时监听发红包的事件二:如何在红包到来的时候自动进入页面并自动点击红包一.如何获取红包到来的事件为了获取红包到来状态栏的变化,我们 ...

ul 仿 table 循环滚动

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

压缩壳SFX的解压

00.查壳,SFX是压缩壳 01.用7Z即可解压 02.提取后的文件压缩壳SFX的解压

数据库测试题

一,简述题(每题5分) 1, 表:table(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表,显示班级,成绩两个字段. 2, 表明:student name ...

Python元组与字典

python字典概念:字典是另一种可变容器类型,且可存储任意类型对象,如其他容器类型. 字典由键和对应值成对组成.字典也被称作关联数组或哈希表.理解好一一对应的关系很重要 1. 掌握字典类型 a) ...

10几个HTML5经典动画应用回顾让你大饱眼福

1.HTML5 Canvas画板画图工具可定义笔刷和画布 HTML5 Canvas还有一个比较实用的应用,那就是网络画板,这样我们就可以在网页上直接进行画图操作.今天要分享的这款HTML5 Canv ...

XMLHttpRequest upload属性

一.新版本的XMLHttpRequest对象,传送数据的时候,有一个progress事件,用来返回进度信息. 它分成上传和下载两种情况 1)下载的progress事件属于XMLHttpRequest对 ...

eclipse中断点调试debug

几乎没有用过debug模式,每次想要知道结果都是sysou一下.记得曾经问乱码问题,jfinal说打断点调试看在哪里出错.简单记下普通调试. 1.在需要查看的地方打断点,方法是在行号右侧双击. 2.运 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.025 s.