xpath提取目录下所有标签内的内容 //text()

利用xpath来提取所有标签里面的内容,即使标签头不同

 1 #-*-coding:utf8-*-
 2 import re
 3 import os
 4 from lxml import etree
 5 html = ‘‘‘
 6 <!DOCTYPE html>
 7 <html>
 8 <head lang="en">
 9     <meta charset="UTF-8">
10     <title>测试-常规用法</title>
11 </head>
12 <body>
13 <div id="content">
14     <ul id="useful">
15     <li>我</li>
16     <ml>是</ml>
17     <li>谁</li>
18     </ul>
19     <ul id="useless">
20     <li>who </li>
21     <li>am </li>
22     <li>i!</li>
23     </ul>
24 </div>
25 <div id="content">
26     <ul id="useful"><li>你</li><ml>是</ml><li>谁!</li>
27     </ul>
28     <ul id="useless"><li>who </li><li>you </li><li>are!</li>
29     </ul>
30 </div>
31
32 </body>
33 </html>
34 ‘‘‘
35 selector = etree.HTML(html)
36 for k in range(1,3):
37     chinese = selector.xpath(‘//div[@id="content"][%s]/ul[@id="useful"]//text()‘%k)
38     data = "".join([each for each in chinese])
39     english = selector.xpath(‘//div[@id="content"][%s]/ul[@id="useless"]//text()‘%k)
40     Data = "".join([each for each in english])
41     print data
42     print Data

结果:

时间: 2024-12-12 06:47:56

xpath提取目录下所有标签内的内容 //text()的相关文章

xpath提取目录下所有标签内的内容,递归 //text()

利用xpath来提取所有标签里面的内容,即使标签头不同 1 #-*-coding:utf8-*- 2 import re 3 import os 4 from lxml import etree 5 html = ''' 6 <!DOCTYPE html> 7 <html> 8 <head lang="en"> 9 <meta charset="UTF-8"> 10 <title>测试-常规用法</t

总结php删除html标签和标签内的内容的方法

经常扒别人网站文章的坑们:我是指那种批量式采集的压根不看内容的,少不了都会用到删除html标签的函数:这里介绍3种不同用途上的方法: $str='<div><p>这里是p标签</p><img src="" alt="这里是img标签"><a href="">这里是a标签</a><br></div>'; 1:删除全部或者保留指定html标签 php自带的

CSS标签内多余内容隐藏

CSS: 1 <style> 2 .mazey{width:100px;} 3 .nowrap{overflow:hidden;text-overflow:ellipsis;white-space:nowrap;} 4 </style> HTML: 1 <div class="mazey nowrap">http://www.mazey.net/baby/blog/#http://www.mazey.net/baby/blog/#http://www

php遍历目录下文件,并读取内容

<?php echo "<h2>遍历目录下文件,并读取内容</h2><br>\n"; function listDir($dir) { if(is_dir($dir)) { if ($dh = opendir($dir)) { while (($file = readdir($dh)) !== false) { if((is_dir($dir."/".$file)) && $file!=".&quo

js 获取标签内的内容

js 获取标签内的内容 参考:这篇博客给了我很大的启发. http://www.cnblogs.com/breakdown/archive/2012/10/09/2716221.html 我遇到的问题:获取span标签中的值51,各种折腾:正则,截取,替换,最后参考上文使用替换解决了.特感谢博主. <a href=""><span id="span4028807e4ebe04ee014ebea76a6d0001alarm" style="

Go实现查找目录下(包括子目录)替换文件内容

[功能] 按指定的目录查找出文件,如果有子目录,子目录也将进行搜索,将其中的文件内容进行替换. [缺陷] 1. 没有过滤出文本文件 2. 当文件过大时,效率不高 [代码] package main import ( "flag" "fmt" "io/ioutil" "os" "path/filepath" "strings" ) type ReplaceHelper struct { R

网页版批量提取目录下特定文件类型

功能: 这是一个网页版的文件批量提取特定目录下的某种类型的文件的功能. 初始化页面文本框中值为空,当输入完成确认后,文本框中数据不会发生变化,撤销也不会发生变化,点击清空按钮则全部清空. 主要思路: 1.文本框中的值用(String)session.getAttribute()来填充,第一次打开界面,用if语句来判断,显示空,跳转过来的就显示第一次输入的值. 2.ReceiveStartServlet.java,RevokeServlet.java,ClearServlet.java都跳转到起始

删除“计算机”目录下“其他”中展示的内容

  电脑卸载豌豆荚后,在“计算机”目录下“其他”中展示的豌豆荚”管理我的手机“图标还是没消失,直接双击或者右击选择不再展示,都会出现 此时可以这样做: 在键盘上按“Win+R”开启“运行”框,在其中键入“regedit”指令后按回车键,打开注册表编辑器: 打开 HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\MyComputer\NameSpace 点击查看相关数值项,删除相应的键值,刷新即可.      

使用xpath提取页面所有a标签的href属性值

# -*- coding: utf-8 -*- #1.选取节点 #获取所有的div元素 //div #/代表获取根节点的直接子元素 #获取所有带有id属性的div //div[@id] #2.谓词(索引从1开始) #获取body下面的第一个/最后一个div元素/前两个 //body/div[1] //body/div[last()] //body/div[position<3] #获取具有class='price'属性的div标签 //div[@class='price'] #3.通配符 # *