爬虫、网页分析解析辅助工具 Xpath-helper

参考：http://blog.csdn.net/su_tianbiao/article/details/52735399

内容：

每一个写爬虫、或者是做网页分析的人，相信都会因为在定位、获取xpath路径上花费大量的时间，甚至有时候当爬虫框架成熟之后，基本上主要的时间都花费在了页面的解析上。在没有这些辅助工具的日子里，我们只能通过搜索html源代码，定位一些id去找到对应的位置，非常的麻烦，而且经常出错。这里介绍一个chrome的xpath辅助插件给大家。

先给到下载链接：xpath-helper

安装好之后，我们重新打开浏览器，按ctrl+shift+x就能调出xpath-helper框了。界面如下：

如果我们要查找某一个、或者某一块元素的xpath路径，可以按住shift，并移动到这一块中，上面的框就会显示这个元素的xpath路径，右边则会显示解析出的文本内容，并且我们可以自己改动xpath路径，程序也会自动的显示对应的位置，可以很方便的帮助我们判断我们的xpath语句是否书写正确。

虽然这个小插件使用非常方便，但它也不是万能的，有两个问题：

1.XPath Helper 自动提取的 XPath 都是从根路径开始的，这几乎必然导致 XPath 过长，不利于维护；

2.当提取循环的列表数据时，XPath Helper 是使用的下标来分别提取的列表中的每一条数据，这样并不适合程序批量处理，还是需要人为修改一些类似于*标记等。

不过，合理的使用Xpath，还是能帮我们省下很多时间的！

时间： 2024-10-13 22:08:05

爬虫、网页分析解析辅助工具 Xpath-helper的相关文章

python爬虫之html解析Beautifulsoup和Xpath

Beautiifulsoup Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器.Python标准库中的HTML解析器,也支持 lxml 的 XML解析器.Beautiful Soup 3 目前已经停止开发,推荐现在的项目使用Beautiful Soup 4.Beautiifulsoup:python语言写的re:C语言写的lxml:C语言

文件处理工具 gif合成工具文件后缀批量添加工具文件夹搜索工具重复文件查找工具网页图片解析下载工具等

以下都是一些简单的免费分享的工具,技术支持群:592132877,提供定制化服务开发. Gif动图合成工具主要功能是扫描指定的文件夹里的所有zip文件,然后提取Zip文件中的图片,并合成一张gif图片,存储到新的路径下,支持设置gif的时间,演示效果如下: 下载地址:gif合成工具文件批量移动工具主要功能是将指定文件夹及子文件夹里所有文件,复制到新的文件夹下,可以指定是否删除源文件.以下动图演示效果. 下载地址:文件批量移动工具.exe 文件批量移动工具主要功能是将指定目录下所有文件按照

【Windows编程】大量病毒分析报告辅助工具编写

解决重复劳动是否在分析单个病毒时很爽,分析N个病毒写报告很机械的情况.. 1)样本下载多个文件,这些文件写报告时要加上这些文件的MD5 2)写报告时明明是17个MD5,实际样本有18个的情况.不知道少了的一个MD5到底是谁? 3)要批量检测某一类样本,然后批量复制出来的情况. 后期加入同事的idea,把文件变成hex.txt封印起来.. 命令行版本工具截图

node.js基础模块http、网页分析工具cherrio实现爬虫

node.js基础模块http.网页分析工具cherrio实现爬虫一.前言说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路径对应网页资源,然后使用cherrio分析. 这里我主要学习过的案例自己敲了一遍,加深理解.在coding的过程中,我第一次把jq获取后的对象直接用forEach遍历,直接报错,是因为jq没有对应的这个方法,只有js数组可以调用. 二.知识点 ①:supera

爬虫第三课：互联网中网页的解析

基本步骤这节课们们的目的就是使用Requests模块+BeautifulSoup模块爬取网站上的信息首先爬取一个网站主要分两步 1.第一步我们要了解服务器与本地交换机制,选择正确的办法我们才能获取正确的信息. 2.我们需要了解一些解析真实网页获取信息的一些办法,还有一些思路服务器与本地交换机制我们先讲解一下服务器与本地的交换机制,首先我们先了解一个这样运作的常识,我们在平常浏览网页的时候,实际上我们使用浏览器点击每一个页面,都是向网站所在的服务器发起一个请求,我们称之为Request,而

phantomjs介绍-(js网页截屏、javascript网页解析渲染工具)

phantomjs介绍-(js网页截屏.javascript网页解析渲染工具) phantomjs 是一个基于js的webkit内核无头浏览器也就是没有显示界面的浏览器,这样访问网页就省去了浏览器的界面绘制所消耗的系统资源,比较适合用于网络测试等应用 .利用这个工具,我们可以轻松的搭建一个接口用于获取我们想要的url的整页截屏. PhantomJS is a headless WebKit with JavaScript API. It has fast and native support

自动化测试由浅入深--自动化测试辅助工具firebug以及xpath，Chrome浏览器Xpath获取。

头几天讲了一些原理性的东西,本章进入实战.想学好自动化,还是得懂一些知识领域.例如,HTML,XML,CSS,JavaScript,Ajax,JAVA\Python\C#等语言中的一种,数据库知识,TestNg,Ant,MAven,Jenkins等.这些东西多多少少都要懂一些.笔者在编程语言方面用的是Java.有了这些东西,还需要一些辅助工具,本章就介绍辅助工具. 1.浏览器安装,我这里使用的是Firefox浏览器,版本使用的46.0,大家可以去火狐官网去下载,在此不多做赘述. 2.安装fire

爬虫02 /数据解析

目录爬虫02 /数据解析 1. 数据解析概述 2. 正则实现的数据解析 3. bs4实现数据解析 4. xpath解析总结: 爬虫02 /数据解析 1. 数据解析概述什么是数据解析,数据解析可以干什么? 概念:就是将一组数据中的局部数据进行提取. 作用:使用来实现聚焦爬虫数据解析的通用原理问题:html展示的数据可以存储在哪里? 标签之中属性中 1.标签定位 2.取文本或者取属性数据解析的常用方法 re bs4 xpath pyquery 2. 正则实现的数据解析需求:http:

05 Python网络爬虫的数据解析方式

一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解析 1. 正则解析常用正则表达式 1 单字符: 2 . : 除换行以外所有字符 3 [] :[aoe] [a-w] 匹配集合中任意一个字符 4 \d :数字 [0-9] 5 \D : 非数字 6 \w :数字.字母.下划线.中文 7 \W : 非\w 8 \s :所有的空白字符包,括空格.制表符.

猜你喜欢

一个WPF小项目小结

一:缘起在10月中旬的时候在学校BBS上看到有人有做PC桌面客户端的需求,做的是能耗的计算和评估,要算能耗,就有很多环节,最后对这些环节数据进行一些简单计算.我想要是做的话就用比较熟的wpf,就去聊 ...

【NOIP2013】花匠

Description 花匠栋栋种了一排花,每株花都有自己的高度.花儿越长越大,也越来越挤.栋栋决定把这排中的一部分花移走,将剩下的留在原地,使得剩下的花能有空间长大,同时,栋栋希望剩下的花排列得比较 ...

单元测试和代码覆盖率工具的使用

1. 学习单元测试和代码覆盖率工具的使用 (1)写一个程序,用于分析一个字符串中各个单词出现的频率,并将单词和它出现的频率输出显示.(单词之间用空格隔开,如“Hello World My First ...

一个用react+nodejs实现的笔记本小应用

随便扯寒假回家产品经理一直叮嘱着要继续做学校团队的辣个项目,但是...没错,我一点都还没做,而且还销声匿迹躲了起来几天,是的我干了票大的,想偷偷的把项目的前端用react实现了,在服务端再加一层no ...

GridLayout无法平分其中包含的一行的元素宽并充满整行

不能平分一行上面的几个按钮,只能让这一行最后一个变宽来填充. 暂时还没有找到方法,先留下问题,待以后再解决.

redis（一）安装以及基本数据类型操作

redis(一) 安装以及基本数据类型操作 redis安装和使用 redis安装 wget http://download.redis.io/redis-stable.tar.gz tar zxvf ...

百练OJ：2797最短前缀

刚开始找输入的退出方式死也没找着,原来这并不是个问题,上网看了一下有人直接这么写的 while( scanf( "%s", input[ temp ++]) != EOF ):输入 ...

用静态字段和构造函数，查询创建了多少个对象

代码: //用静态字段和构造函数,查询创建了多少个对象 package chaxun; public class chaxun { private static int n; public chaxu ...

[Asp.net MVC]Asp.net MVC5系列——添加模型

目录概述添加模型总结系列文章 [Asp.net MVC]Asp.net MVC5系列——第一个项目 [Asp.net MVC]Asp.net MVC5系列——添加视图概述在本节中我们将追加 ...

string 到 Color 的转换示例：

string colorstr = "#FF4D4D4D";string hex = colorstr.ToString().Replace("#", &quo ...

OC纯代码全手工打造ScroolView实现翻页

OC纯代码全手工打造ScroolView实现翻页 1. 概述分为三部分: 上部标题ScrollView 下部内容ScrollView 上部当前页标示线 2. 效果上下两部分都随着手势的滑动一块滑 ...

分布式文件系统HDFS简要介绍

HDFS 的设计主要基于以下六点考虑: (1)容错独立计算机的硬件错误不能当异常情况处理,而属于正常状态.HDFS 文件系统中会有许多个普通计算机节点构成, 在任何时间任何一个节点都有可能出现故障, ...

DevExpress GridView属性设置 z

本文主要总结控件的属性设置,附上图片,给大家一个参考.后续会给大家分享功能实现和使用的小技巧. GirdControl是数据的容器,它包含多种显示方式,GridView则是一种二维表格视图. 绑定数据 ...

poj 1553

题意:求1到2所有路径中最小蛙跳蛙跳:在一条路径中所有蛙跳中的最大蛙跳思路:dijska算法思想 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ...

Windows Driver Model

http://en.wikipedia.org/wiki/Windows_Driver_Model In computing, the Windows Driver Model (WDM) — als ...

SAD算法在opencv上的实现代码（c++）

#include <opencv2/opencv.hpp>#include <opencv2/core/core.hpp>#include <opencv2/highgu ...

Constructor 构造器Constructor不能被继承,因此不能重写Overriding,但可以被重载Overloading. 构造器用来确保每个对象都会得到初始化.当对象被创建时,如 ...

建立window SVN服务器

在windows下搭建SVN服务器: 首先从http://www.visualsvn.com/server/download/ 下载最新的VisualSVN-Server-x.x.x.msi,然后本机 ...

OpenStack-Cinder 环境安装

如果想运行cinder,需要安装libvirt以及至少一种hypervisor(一种虚拟化技术,协调软件对硬件的访问).如果仅仅想运行单元测试,则不需要安装这些. 使用virtualenv管理pyth ...

javaSE_base01_基础

一.基础知识:1.JVM.JRE和JDK的区别: JVM(Java Virtual Machine):java虚拟机,用于保证java的跨平台的特性. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.