lxml.html删除节点树和tag对

# encoding: utf-8
import StringIO

from apihelper import info, info_save
from lxml import etree, html
from lxml.html.clean import Cleaner

strhtml = ‘‘‘\
<html>
   <head>
     <script type="text/javascript" src="evil-site"></script>
     <link rel="alternate" type="text/rss" src="evil-rss">
     <style>
       body {background-image: url(javascript:do_evil)};
       div {color: expression(evil)};
     </style>
   </head>
   <body >
     
     <a href="javascript:evil_function()">a link</a>
     <a href="#" onclick="evil_function()">another link</a>
     <p onclick="evil_function()">a paragraph</p>
     <div style="display: none">secret EVIL!</div>
     <object> of EVIL! </object>
     <iframe src="evil-site"></iframe>
     <form action="evil-site">
       Password: <input type="password" name="password">
     </form>
     <blink>annoying EVIL!</blink>
     <a href="evil-site">spam spam SPAM!</a>
     <image src="evil!">
     <div id=‘nav‘ class=‘nav‘>this is nav</div>
   </body>
</html>‘‘‘

# strhtml = ‘‘‘<html><head></head>
# <body><div>aaa</div></body>
# </html>‘‘‘

etree.DEBUG = 1
print etree.LIBXML_VERSION
utf8_parser=html.HTMLParser(encoding=‘utf8‘)
# f = open(xmlFile)
# xml = f.read()
# f.close()
doc=html.fromstring(strhtml, parser=utf8_parser)
# weather = doc.xpath(‘body/object‘)
# doc.find(‘.//body/object‘).drop_tag()
# doc.find(‘.//body/object‘).drop_tree()
doc.find(‘.//body‘).drop_tree()
# print ‘\r\n‘.join(doc)
# print info_save(doc)
# print html.tostring(doc)

时间： 2024-11-16 23:24:43

lxml.html删除节点树和tag对的相关文章

红黑树之删除节点

红黑树之删除节点上一篇文章中讲了如何向红黑树中添加节点,也顺便创建了一棵红黑树.今天写写怎样从红黑树中删除节点. 相比于添加节点,删除节点要复杂的多.不过我们慢慢梳理,还是能够弄明白的. 回顾一下红黑树的性质红黑树是每个节点都带有颜色属性的二叉查找树,颜色或红色或黑色.在二叉查找树强制一般要求以外,对于任何有效的红黑树我们增加了如下的额外要求: 节点是红色或黑色. 根节点是黑色. 每个叶节点(这里的叶节点是指NULL节点,在<算法导论>中这个节点叫哨兵节点,除了颜色属性外,其他属性值都为任

Cocos2d之Node类详解之节点树（二）

一.声明本文属于笔者原创,允许读者转载和分享,只要注明文章来源即可. 笔者使用cocos2d框架的cocos2d-x-3.3rc0版本的源代码做分析.这篇文章承接上篇<Cocos2d之Node类详解之节点树(一)>. 二.简介节点一个Node对象. 节点树上篇文章介绍到,Node类有一个成员变量 Vector<Node*> _children,这是一个保存所有子节点的数组,因为Node类采用遍历树的方式获取子节点进行渲染,所以我管这两个东西的结合叫节点树. 三.源码详解 &

js 访问,插入,替换,创建,删除节点介绍

访问选定元素节点下的所有子节点的列表,返回的值可以看作是一个数组,他具有length属性.语法:elementNode.childNodes注意:如果选定的节点没有子节点,则该属性返回不包含节点的 NodeList. 注意:1. IE全系列.firefox.chrome.opera.safari兼容问题2. 节点之间的空白符,在firefox.chrome.opera.safari浏览器是文本节点,所以IE是3,其它浏览器是7, 访问子节点的第一和最后项一.firstChild 属性返回'chi

二叉平衡树之删除节点

二叉平衡树之删除节点操作更好的判断最小非平衡树类型的方法在前一篇文章中,我们知道最小非平衡树可以分为四种类型,即:LL型.LR型.RR型和RL型.而且我也按照自己的理解,归纳了判断是哪种类型的方法.总结一下就是:设最小非平衡树的树根为unbalance,首先看unbalance的左右子树谁更高,如果左子树更高则为LX型.如果是右子树高则为RX型.再进一步,如果为LX型,将刚刚插入的节点的值value与unbalance左孩子进行比较,如果value大则为LR型,如果value小则为LL型.如

DOM创建和删除节点、HTML DOM常用对象[转]

创建和删除节点:——核心DOM 1. 创建单个元素节点:3步: 1. 创建空元素节点对象: var elem=document.createElement("标签名"); 比如: var a=document.createElement("a"); html: <a></a> 2. 设置新元素的关键属性: 比如: a.href="http://tm

Cocos2d之Node类详解之节点树（一）

一.声明笔者分析的是用C++语言实现.版本号为cocos2d-x-3.3rc0的cocos2d框架的源代码.本文为笔者原创,允许读者分享和转载,只要读者注明文章来源即可. 二.简介 Node对象时场景图的基本元素,并且场景图的基本元素必须是Node对象和Node的子类对象.常见的Node类的子类有:Scene.Layer.Sprite.Menu和Label类. Node类主要实现几个特性: Node对象的 addChild(Node *child).getChildByTag(int tag)

DOM之节点树操作

节点树每个html页面载入浏览器的时候,浏览器都会生成一个树形结构,这个树形结构由节点组成,我们称之为节点树或文档树; 每个HTML标签都是元素节点每个标签的属性都是属性节点每个标签的文本内容都是文本节点节点分为: 元素节点属性节点文本节点注释节点 nodeType 获取节点的类型 nodeName 获取节点的名称 nodeValue 获取节点的值节点 nodeType nodeName nodeValue 元素节点标签名 1 null 属性节

zTree删除节点

zTree 是一个依靠 jQuery 实现的多功能 “树插件”.优异的性能.灵活的配置.多种功能的组合是 zTree 最大优点. zTree删除节点. 1 <!DOCTYPE html> 2 <HTML> 3 <HEAD> 4 <TITLE> ZTREE DEMO - edit</TITLE> 5 <meta http-equiv="content-type" content="text/html; chars

红黑树插入删除节点过程分析 && C代码实现

红黑树的插入和删除规则: 红黑树的五个性质 1. 每个节点要么是红的,要么是黑的 2. 根节点时黑色的 3. 每个叶节点(叶节点既指树尾端NIL指针或NULL节点)是黑色的 4. 如果一个节点时红的,那么它的两个儿子都是黑色的 5. 对每个节点,其到叶节点树尾端NIL指针的每一条路径都包含相同数目的黑节点这里所说的"叶节点"或者"NULL节点",它不包含数据而只充当树在此结束的知识. 二叉树的左旋和右旋这里不再讲解红黑树的插入操作:

猜你喜欢

NOIP 灯的排列问题

题目描述设在一排上有N个格子(N≤20),若在格子中放置有不同颜色的灯,每种灯的个数记为N1,N2,--Nk(k表示不同颜色灯的个数). 放灯时要遵守下列规则: ①同一种颜色的灯不能分开: ②不同颜 ...

Unix命令

文件系统 cmp [-l-s] File1 File2:比较两个文件,输出第一个不同的位置. -l:这比较文件,然后显示第一个不同的字节数(使用十进制格式)和每个不同的不同字节(使用八进制格式) -s ...

Linux的诞生史

远古记忆-UNIX的诞生 Multics计划--开始. 这是由麻省理工学院,通用电气和AT&T的贝尔实验室合作的操作系统项目,用于使用在GE-645大型主机上的.但是由于整个目标过于庞大,Mu ...

json数据操作

<!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <title> ...

java导入项目有红色叹号

原因:缺少jar包解决: 选中项目 -> 右键 -> Build Path -> Configer Builder Path -> 删除掉有错的JRE -> ...

Android解决软键盘弹出将布局顶到上面

有时候我们在下面的布局是一个RadioGroup,然后当页面中的EditText获得焦点的时候,会将地步的RadioGroup顶起来,这时候我们只需要在AndroidMainfest中RadioGro ...

MFC常见一些知识点

1.DDX_Control 与 DDX_Text 区别 DDX_TEXT()的作用可以理解为把字符串变量和控件的文本(WindowText)关联起来, DDX_Control()的作用可以理解为把变量 ...

存储过程带事务，拼接id，返回值

出处:http://www.cnblogs.com/cmsdn/archive/2012/04/25/2469568.html 以下SQL以防以后还需用到,特此备份删除一条留言信息会级联删除回复信息 ...

dongle0

*CLI> -- [dongle0] Trying to connect on /dev/ttyUSB2... 插拔dongle[Jan 13 23:42:20] WARNING[3443]: ...

风格化刚好东过奉公守法格的东

http://wenda.tianya.cn/question/19jlibfvgeibabo6phjovjqm76bad9o8kqj64 http://wenda.tianya.cn/questio ...

发布Hessian服务作为服务内部基础服务

摘要:Hessian经常作为服务内部RPC工具来使用,速度快效率高.重构代码的核心思想就是把共用的代码段提出来,使代码结构优化:架构设计类似,把基本的共用的服务提出来,使架构优化.下面讲述一下我在具体 ...

php 批量添加多行文本框 textarea

$act=!empty($_GET['act']) ? trim($_GET['act']) : ''; switch($act) { case 'adda': $area['a_value'] = ...

线程任务异常终止问题

本文为博主原创文章,未经博主允许不得转载. 我们开发工程中经常使用到线程,在线程使用上,我们可能会有这样的场景: 伴随这一个业务产生一个比较耗时的任务,而这个业务返回并不需要等待该任务.那我们往往会启 ...

非递归实现先序遍历 java leecode 提交

写完才知道自己学习都是似是而非啊,大家可以也在leecode上提交代码,纯手写,离开eclipse第一种方式:数据结构书上的,使用栈大概思路.1.不断将根节点的左孩子的左孩子直到为空,在这个过程入栈. ...

大学，到底学什么。即将成为程序员的我的一点体会

2015年就这样开始了.现在已经到了4号.原本想的自己好好跨个年.2015年做新的自己,努力学习. 可是却又玩了3天的游戏. 转眼之间已经大三了,回首三年,总是有一种虚度的感觉.一种自责的感觉.感觉自 ...

Hibernate xml格式和anno格式 mappedby

xml配置的时候多对一一对多的外键可以配置一样,但是anno不太好弄,多这边配完了,一那边用个mappedby"“自己在对方的属性”就可以,不然要建一张中间表.xml的mappedby因为 ...

I/O 函数总结

经过一段时间的学习,发现字符处理时或者文件处理时,经常需要进行输入(读入)和输出,而可供选择的函数很多,现在反而容易搞混淆,下面就对常用的输入输出函数进行总结和比较,以便于区分和熟练掌握. 标准 pr ...

JQuery selector - not

<div class="table"> <div class="row header"></div> <div cla ...

Linux 入门记录：六、Linux 硬件相关概念（硬盘、磁盘、磁道、柱面、磁头、扇区、分区、MBR、GPT）

一.硬盘硬盘的功能相当简单但很重要,它负责记录系统所需要的各种数据.硬盘记录数据有两个方面,一个是硬件方面的存储原理和结构,另外一方面则是软件方面的数据和文件系统.硬盘的主要行为就是数据的存放和取出 ...

iOS延时执行

GCD之dispatch queue深入浅出浅谈iOS开发中方法延迟执行的几种方式

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.