爬虫:网页里元素的xpath结构,scrapy不一定就找的到

这种情况原因是html界面关联的js文件可能会动态修改DOM结构,这样浏览器完成了动态修改DOM,在 浏览器上看到的DOM结构,就和后台抓到的DOM结构不通

举例:新浪微博发的微博,在浏览器通过firebug的插件FirePath可以很容易计算出xpath

通过Firefinder可以查看xpath的匹配情况

但是查看页面的源代码,可以发现,微博的内容都是包含在js里的FM.view里的,这些会被js动态生成DOM,但是抓取返回的内容都是下面这些内容,是还没有生成DOM的

时间: 2024-10-22 23:44:40

爬虫:网页里元素的xpath结构,scrapy不一定就找的到的相关文章

HTML5 语义元素(一)页面结构

本篇主要介绍HTML5增加的语义元素中关于页面结构方面的,包含: <article>.<aside>.<figure>.<figcaption>.<footer>.<header>.<main>.<nav>.<section>等元素. 目录 1. 语义元素介绍 1.1 何为语义元素 1.2 特点 2. 原先界面布局 3. 页面结构语意元素 3.1 说明 3.2 详细介绍 3.3 示例图 1. 语义元

如何使用FireBug插件查询元素的xPath属性

1.在firefox内如下安装组件:FirePath.Firebug 2.安装后重启 Firefox. 打开准备分析的网页,这里以www.wenxin.xyz为例: 准备获取搜索框的Xpath地址. 3.在搜索框内点击右键:选择“使用Firebug检查元素”.或者直接按下快捷键F12键也可以达到相同的效果. 4.打开后点击FirePath标签: 5.如果在这个界面你想查请看其他元素的Xpath地址,可以直接点击箭头按钮,选择相应的元素,可以直接看到该元素的Xpath地址.

元素定位-XPATH定位方法总结

1.Xpath定位方法探讨 xpath是比较常用的一种定位元素的方式,因为它很方便,缺点是,消耗系统性能.如果Xpath使用的比较好,几乎可以定位到任何页面元素,而且受页面变化影响较小. 1.1.什么是XPATH: XPath (XML Path Language) 是一门在 HTML文档中查找信息的语言,可用来在 HTML文档中对元素和属性进行遍历. 详细使用方法可见 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp 1.2.XPA

在ASP.NET2.0里打印网页指定的内容(比如打印网页里的一个Table)

原文:在ASP.NET2.0里打印网页指定的内容(比如打印网页里的一个Table) 打印指定内容: <html> <head> <script   type= "text/javascript "   language= "javascript "> function   printPage()   {   var   newWin   =   window.open( 'about:blank ', ' ', ' ');   v

为什么很多网页里不直接用script标签引入JS文件,而是通过函数新建script,然后添加属性,再来引入呢?

最近在做毕业的项目,发现很多网页里都是通过构建函数的方式来引入JS文件,代码如下: function loadJScript() { var script = document.createElement("script"); script.type = "text/javascript"; script.src = "http://***"; document.body.appendChild(script); } 在我看来,<scrip

需求:过滤下面这个网页里共723行 校对中里 行数为两位数的 行 并设置sz和rz在Windows和Linux之间发送和接收文件不用搭FTP

需求:过滤下面这个网页里共723行 校对中里 行数为两位数的 行 因为翻译当然要选择行数少的来翻译,翻译PG文档 https://github.com/postgres-cn/pgdoc-cn/wiki/check9.3grep  -E  "共[0-9]{2}行"  check9.3 [[email protected] ~]# grep  -E  "共[0-9]{2}行"  check9.3 |wc -l32 打开SecureCRT软件 -> Options

在网页里添加客服

html文件的<body>添加 1 <!--qq客服--> 2 <div class="box_os"> 3 <div class="os_x" style=""></div> 4 <div class="osqq"> 5 <p><em>(工作日:9:30-18:30)</em></p> 6 <!--

解决在网页里设置锚点后,链接不到相应位置

在网页里设置锚点后,链接不到相应位置,常常出现点完链接后跳到相应位置偏下的位置, <div class="row" id="alter-title" name="alter-title"> 只需要在设置id的位置设置它的样式padding-top; .row{padding-top:20px;} 像数根据实际情况调 解决在网页里设置锚点后,链接不到相应位置,布布扣,bubuko.com

hdu 1856 求集合里元素的个数 输出最大的个数是多少

求集合里元素的个数 输出最大的个数是多少 Sample Input41 23 45 61 641 23 45 67 8 Sample Output42 1 # include <iostream> 2 # include <cstdio> 3 # include <cstring> 4 # include <algorithm> 5 # include <cmath> 6 # include <queue> 7 # define LL