python爬虫----XPath

1.知道本节点元素，如何定位到兄弟元素

详情见博客

XML代码见下

bt1在文档中只出现一次，所以很容易获取到bt1中内容，那怎么根据<td class=‘bt1‘>来获取bt2中的内容

                content_title = driver.find_element_by_xpath("//td[@class=‘bt1‘]").text
                # 获取content_title的父节点的哥哥节点
                content_subtitle = driver.find_element_by_xpath("//td[@class=‘bt1‘]/../following-sibling::tr[1]").text                # 获取第二个tr下面td的父节点的弟弟节点                conten_subtitle = driver.find_element_by_xpath("//td[@class=‘bt1‘]/../preceding-sibling::tr[1]").text

　返回的内容为：高起点高水平推进福州新区建设

尤权于伟国赴福州新区调研

‘’

2.元素替换，查找元素位置可以用变量替换字符串

>>> driver.find_element_by_xpath("//*[@id=‘mp1057136‘]").click()
>>> a=‘mp1057136‘
>>> driver.find_element_by_xpath("//*[@id=‘%s‘]"% a).click()
>>>

3.用webdriver获取网页上影藏的文字

网页格式和源码如下所示，网页上的内容被隐藏了，需要点击一下才会完全显示。右边是没有点击前页面的源码，可以看到完整的内容其实已经在页面上了，于是我通过下面方式获取

>>> driver.find_element_by_xpath(".//*[@id=‘company_base_info_detail‘]").text
‘‘
>>> driver.find_element_by_xpath("//script[@id=‘company_base_info_detail‘]").text
‘‘

　通过定位获取到的竟然为空，并不想通过模拟点击生成新页面再来获取内容，看到网上博主有提到另一种获取隐藏信息的方式

driver.execute_script("return arguments[0].textContent",c)获取文字或者

driver.execute_script("return arguments[0].innerHTML",c)获取源码

>>> c=driver.find_element_by_xpath("//div[@class=‘sec-c2 over-hide‘]")
>>> driver.execute_script("return arguments[0].textContent",c)
‘简介：淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬...\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                详情‘
>>> driver.execute_script("return arguments[0].innerHTML",c)
‘<span><span class="sec-c3">简介：</span>淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬...</span><script type="text/html" id="company_base_info_detail">\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                </script><span class="c9 point hover_underline" onclick="companyDetail()">详情</span>‘
>>> c=driver.find_element_by_xpath("//div[@class=‘sec-c2 over-hide‘]//script")
>>> driver.execute_script("return arguments[0].textContent",c)
‘\n                  淘宝（中国）软件有限公司成立于2004年12月07日，主要经营范围为研究、开发计算机软、硬件，网络技术产品，多媒体产品等。\n                ‘
>>>

　　后面我重新定义了c使得最终得到我想要的企业完整简介

时间： 2024-08-29 20:46:05

python爬虫----XPath的相关文章

python爬虫xpath的语法

python爬虫xpath的语法有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上. 因此,对 XPath 的理解是很多高级 XML 应用的基础. 这个是w3c上关于xpath的介绍,可以看出xp

Python爬虫利器三之Xpath语法与lxml库的用法

前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath. 参考文档: lxml python 官方文档 XPath语法参考 w3school 安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在

小白学 Python 爬虫（19）：Xpath 基操

人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Linux基础入门小白学 Python 爬虫(4):前置准备(三)Docker基础入门小白学 Python 爬虫(5):前置准备(四)数据库基础小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装小白学 Python 爬虫(7):HTTP 基础小白学 Python 爬虫(8):网页基

Python爬虫系列之 xpath：html解析神器

通过前面的文章,我们已经知道了如何获取网页和下载文件,但是前面我们获取的网页都是未经处理的,冗余的信息太多,无法进行分析和利用这一节我们就来学习怎么从网页中筛选自己需要的信息,顺便给大家推荐一个资源很全的python学习免非解答.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,这里有资深程序员分享以前学习心得,学习笔记,还有一线企业的工作经验,且给大家精心整理一份python零基础到项目实战的资料,每天给大家讲解python最新的技术,前景,学习需要留言的小细节说到信息筛选我们立马就

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

目录(?)[+] 前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容. 希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~ [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

从零开始的Python爬虫速成指南

http://python.jobbole.com/87284/ 从零开始的Python爬虫速成指南 2017/01/22 · 实践项目 · 1 评论 · 爬虫分享到: 11 原文出处: 舞鹤序本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容. 本文受众:没写过爬虫的萌新. 入门 0.准备工作需要准备的东西: Python.scrapy.一个IDE或者随便什么文本编辑工具. 1.技术部已经研究决定了,你来写爬虫. 随便建一个工作目录,然后用命令行建立一个工程

Python爬虫利器六之PyQuery的用法

前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢? 嗯,那么,前端大大们的福音来了,PyQuery 来了,乍听名字,你一定联想到了 jQuery,如果你对 jQuery 熟悉,那么 PyQuery 来解析文档就是不二之选!包括我在内! PyQuery 是 Python 仿照 jQuery

Python爬虫利器：Selenium的用法

本文和大家分享的主要是python 爬虫利器Selenium的相关内容,一起来看看吧,希望对大家学习python爬虫有所帮助. Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome , Safari , Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现 Web界面的测试.换句话说叫 Selenium 支持这些浏览器驱动.话说回来, PhantomJS 不也是一个浏览器吗,那么 S