2016/7/13 23:39:43 xPath 分析网页元素

1. 采用QQ浏览器，当前以获取qiushibaike里面的内容以及好笑，评论数为例

选择需要抓取的内容，然后右键检查

会出现一个调试界面，在 elements 里面选择需要抓取的信息，右键 copy - copy XPath

3. 接下来可以到 console 界面调试一下抓取的信息（妹的，这么强悍）

使用 $x(‘XPath‘) 可以抓到相关信息

4. 相应的我们可以得到相关Xpath


1.内容 //*[@id="qiushi_tag_116975883"]/div[2]
2.好笑 //*[@id="qiushi_tag_116975883"]/div[3]/span[1]/i
3.评论数 //*[@id="c-116975883"]/i

5.以上只是分析了一个，那如何获取所有呢？如下图，先分析所有的内容。

5.1 然后获取，

结合其他人的项目代码分析



from scrapy import Spider
from scrapy.selector import Selector
 
from stack.items import StackItem
 
 
class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    ]
 
    def parse(self, response):
        questions = Selector(response).xpath(‘//div[@class="summary"]/h3‘)
 
        for question in questions:
            item = StackItem()
            item[‘title‘] = question.xpath(
                ‘a[@class="question-hyperlink"]/text()‘).extract()[0]
            item[‘url‘] = question.xpath(
                ‘a[@class="question-hyperlink"]/@href‘).extract()[0]
            yield item

 
 
我们将遍历问题，从抓取的数据中分配标题和URL的值。一定要利用Chrome开发者工具的JavaScript控制台测试XPath的选择器，例如$x(‘//div[@class="summary"]/h3/a[@class="question-hyperlink"]/text()‘) 和 $x(‘//div[@class="summary"]/h3/a[@class="question-hyperlink"]/@href‘)。

来自为知笔记(Wiz)

时间： 2024-10-05 03:02:08

2016/7/13 23:39:43 xPath 分析网页元素的相关文章

python简单使用xpath查找网页元素

from lxml import html def parse(): """"将html文件中的内容,使用小path进行提取""" #读取文件中的内容 f = open('./venv/static_/index.html','r',encoding = 'utf-8') s = f.read() selector = html.fromstring(s) #j解析标题 h3 = selector.xpath('/html/body/h

9x25 LED 驱动框架分析 2016.07.13

进入内核 make menuconfig 输入 /led 回车搜索到 │ Location: │ │ -> Device Drivers │ │ -> LED Support (NEW_LEDS [=y]) 进入LED Support发现有这一项 []LED Support for GPIO connected LEDs 在内核搜索该字符串 grep "LED Support for GPIO connected LEDs" * -nR 搜索到 drivers/leds/K

Oracle中把一个DateTime的字符串转化成date类型。to_date('2016/12/8 18:55:43','yyyy/MM/dd hh24:mi:ss'),

Oracle中把一个DateTime或者该形态字符串转化成date类型. to_date('2016/12/8 18:55:43','yyyy/MM/dd hh24:mi:ss'), 或者: select to_date('2010-10-20 13:23:44','yyyy-mm-dd hh24:mi:ss') from dual; 是用" /"还是" -"取决于字符串是什么结构的. date类型转换成char类型, 例子to_char(' ','yyyymmd

IIS7报500.23错误的原因分析及解决方法

这篇文章主要介绍了IIS7报500.23错误的原因分析及解决方法的相关资料,需要的朋友可以参考下背景:今天公司终端上有一个功能打开异常,报500错误,我用Fiddler找到链接,然后在IE里打开,报500.23错误:检测到在集成的托管管道模式下不适用的ASP.NET设置.后台是一个IIS7和tomcat7集成的环境,此处记录一下. HTTP 错误 500.23 - Internal Server Error 检测到在集成的托管管道模式下不适用的 ASP.NET 设置. 为什么会出现以上错误? 在

PHP抓取及分析网页的方法详解

本文实例讲述了PHP抓取及分析网页的方法.分享给大家供大家参考,具体如下: 抓取和分析一个文件是非常简单的事.这个教程将通过一个例子带领你一步一步地去实现它.让我们开始吧! 首先,我首必须决定我们将抓取的URL地址.可以通过在脚本中设定或通过$QUERY_STRING传递.为了简单起见,让我们将变量直接设在脚本中. ? 1 2 3 <?php $url = 'http://www.php.net'; ?> 第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里. ? 1 2 3

抓取分析网页批量下载评书(上)之搜索有声小说

一.背景母亲喜欢听评书,跟着广播每天一集总觉得不过瘾,于是2010年给她买了一个带内存,能播放MP3的音箱,从此给她找评书便成了我的责任和义务. 一开始开始还好,单先生说的书多,找起来不困难, 但随着听的越多,加上听惯了单先生的,其他人的母亲都不喜欢,即便单先生的,类似白眉大侠.童林传等武侠类的她也不爱听(本人也不是很喜欢,规律都差不多,自己被欺负了,找兄弟,再不行找师傅,还不行,找师祖,总之一句话你等着,我叫人去),后来实在找不到了,也慢慢的试着听孙一,张少佐等其他人的了. 电驴被封后,而能

13.删除单链表中重复的元素

13.删除单链表中重复的元素思路: 用Hashtable辅助,遍历一遍单链表就能搞定.同高级函数9的原因,我不太会使用C++STL中的hash.而如果使用set集合来存储链表中的所有的值,实际上效率和每次重新遍历单链表是一样的.“用了c++标准库中的set来保存访问过的元素,所以很方便的就可以判断当前节点是否在set集合中,直接使用set提供的find函数就可以了.而且使用set的查找在时间复杂度上比较低.”我不太清楚STL中set集合的实现方式,如果是基于类似hash结构的话,那自然效率O(

超赞干货！2016年新鲜出炉的20款网页开发工具推荐

越来越多的移动端和桌面端应用开始使用HTML.CSS和JS来开发了,而网页设计更是离不开这些语言.正是这种局面使得许多新的网页技术成为了可能,也催生了许多诸如React.js.Angular和Node.js这样的库.随着需求和项目的细化,开发者社区几乎每天都会有有开发者放出新的库和开发工具. 进入新年,小编推荐20款最新的实用开发工具,为各位前端和后端开发者来点干货.这20个网站中,包含了开发框架.插件.生产力工具.应用程序,还有不少开发实践案例.感兴趣的同学可以自行选择搜索使用. 1. Pre

通过LoadRunner - Analyze详细分析页面元素请求

众所周知LoadRunner录制某个链接,包括动态请求与js.css.jpg等静态请求. web_custom_request("动态请求", "URL=http://www.baidu.com/", "Method=GET", "Resource=0", "RecContentType=text/html", "Referer=", "Snapshot=t1.inf"