xpath获取当前标签下的所有文本

举个栗子,也是在下爬新浪微博移动端时遇到的问题,微博评论有普通评论、回复他人评论和热门评论,详情:

普通评论

回复他人评论

热门评论

用户评论内容都在<span class="ctt"></span>中,其中,普通评论和热门评论内容都很容易提取,采用.xpath[‘span[@class=‘ctt‘]/text()‘]即可

但回复他人评论的内容被分割成三个部分,要全部获取代码如下

1 test= comment.xpath(".//span[@class=‘ctt‘]")
2 result = test[0].xpath(‘string(.)‘).strip()

就可提取出:“回复@仙儿哥哥:您好,小v私信您了解下,请您查看下消息”

注:".//span[@class=‘ctt‘]"中的“.”表示选取当前节点,必须有!参考的下文链接中没有“.”,经试验只能爬取到子标签下的全部文本,有需要提取子标签下全部文本的可自行去掉“.”

参考:https://blog.csdn.net/qq_39429962/article/details/84196938

原文地址:https://www.cnblogs.com/aocinet/p/10247655.html

时间: 2024-09-29 18:49:13

xpath获取当前标签下的所有文本的相关文章

html 文本解码 xpath 获取html标签

import htmlimport etree url_h2 = selector.xpath("//a[@_stat='video:poster_v']/../h2")[0]url_div = selector.xpath("//a[@_stat='video:poster_v']/../div")[0]url_h2 = etree.tostring(url_h2).decode()url_div = etree.tostring(url_div).decode(

Xpath提取一个标签里的所有文本

content = etree.HTML(text) h = content.xpath('//h1') h1 = h[0].xpath('string(.)').strip() 原文地址:https://www.cnblogs.com/hankleo/p/10394905.html

xpath获取下一页,兄弟结点的妙用

第一页的情况: 第四页的情况 : 文章的链接:  http://tech.huanqiu.com/science/2018-02/11605853_4.html 从上面我们可以看到,如果仅仅用xpath获取下一页的链接 例如:  //div[@id="pages"]/a[@class="a1"][text()="下一页"]/@href 就会在第四页的时候重复获取相同的链接,我们通过观察可以发现一些规律: 所在的页码是在与链接a标签同级的span标

js获取select标签选中的值及文本

原生js方式: var obj = document.getElementByIdx_x("testSelect"); //定位id var index = obj.selectedIndex; // 选中索引 var text = obj.options[index].text; // 选中文本 var value = obj.options[index].value; // 选中值 jquery方式: 第一种方式$('#testSelect option:selected').te

Appium根据xpath获取控件实例随笔

如文章<Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.其中一种就是根据控件所在页面的XPATH来定位控件. 本文就是尝试通过自己的试验来尝试对Appium如何用xpath来定位控件做一个阐述,当中如有不对的地方敬请大家指出. 1. 背景 本文尝试使用的试验对象是SDK自带的NotePad应用实例,假设已经有两个Notes分别是"note1"和"note2"添加到Notepad上面,我们要做的

获取网站标签Icon

通常情况下,做网站的都会给自己的网站添加一个Icon,浏览器上一长排的标签页,用Icon来区分就显得更加醒目.现在想找一个没有Icon的网站并不好找,可见没有Icon的网站是多么的业余啊."什么?你问Icon是什么?你走吧,这是讨论技术的地方!" 想知道如何获取Icon,就要弄明白怎样设置Icon.先讨论一下设置Icon,再介绍获取Icon,并提供相应Java代码以供参考. 一. 设置网站Icon 设置Icon有两种方式: 1. 看一下我们专业的博客园,看到灰色部分了吗,在head标签

Appium根据xpath获取控件

如文章< Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.其中一种就是根据控件所在页面的XPATH来定位控件. 本文就是尝试通过自己的试验来尝试对Appium如何用xpath来定位控件做一个阐述,当中如有不对的地方敬请大家指出. 1. 背景 本文尝试使用的试验对象是SDK自带的NotePad应用实例,假设已经有两个Notes分别是“note1”和“note2”添加到Notepad上面,我们要做的就是尝试用xpath的方法来定位“no

【转】Appium根据xpath获取控件实例随笔

原文地址:http://blog.csdn.net/zhubaitian/article/details/39754233 如文章<Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.其中一种就是根据控件所在页面的XPATH来定位控件. 本文就是尝试通过自己的试验来尝试对Appium如何用xpath来定位控件做一个阐述,当中如有不对的地方敬请大家指出. 1. 背景 本文尝试使用的试验对象是SDK自带的NotePad应用实例,假设已经有两

爬虫 xpath 获取方式

回顾 bs4 实例化bs对象,将页面源码数据加载到该对象中 定位标签:find('name',class_='xxx') findall() select() 将标签中的文本内容获取 string text get_text() a['href'] xpath 环境安装: pip install lxml 原理解析: 获取页面的源码数据 实例化etree对象,并将页面源码数据加载到该对象中 调用该对象xpath方法进行指定标签的定位 注意:xpath必须结合者xpath的表达式进行标签定位和内容