python除去html标签

使用python自带的HTMLParser 实现。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2,re
import time,sys
from HTMLParser import HTMLParser
#设置默认编码
type = sys.getfilesystemencoding()

class MyHTMLParser(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)      

def main():
	parser = MyHTMLParser()
	parser.feed('<style type="text/css">#python { color: green }</style>')
	print parser.get_data().strip()

if __name__ == '__main__':
	main()

输出:

#python { color: green }

时间: 2024-10-27 08:07:44

python除去html标签的相关文章

五、Python Django模板标签

Python Django模板标签 一.if.for标签 # cat blog/views.py from django.shortcuts import render_to_response def index(req): user = {'name':'loyu','age':23,'sex':'male'} book_list = ['python','java','php','web'] return render_to_response('index.html',{'title':'L

python去掉html标签

s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></SPAN>' import re d = re.sub('<[^

Python 清理HTML标签类似PHP的strip_tags函数功能(二)

没有发现Python 有现成的类似功能模块,所以昨天写了个简单的 strip_tags 但还有些问题,今天应用到采集上时进行了部分功能的完善, 1. 对自闭和标签处理 2. 以及对标签参数的过滤 from html.parser import HTMLParser def strip_tags(html, allow_tags=None, allow_attrs=None): result = [] start = [] data = [] # 特殊的自闭和标签, 按 HTML5 的规则, 如

从零宽断言说起到用python匹配html标签内容

版权声明:本文为博主原创文章,转载请附带原文网址http://www.cnblogs.com/wbchanblog/p/7411750.html ,谢谢! 提示:本文主要是讲解零宽断言,所以阅读本文需要有一定的正则表达式基础. 概念 我们知道元字符"\b"."^"."$"匹配的是一个位置,而且这个位置需要满足一定的条件(比如"\b"表示单词的边界),我们把这个条件称为断言或零宽度断言.这里有很重要的两个信息:一是断言实际上是某

Python 清理HTML标签相似PHP的strip_tags函数功能(二)

没有发现Python 有现成的类似功能模块,所以昨天写了个简单的 strip_tags 但还有些问题,今天应用到採集上时进行了部分功能的完好, 1. 对自闭和标签处理 2. 以及对标签參数的过滤 from html.parser import HTMLParser def strip_tags(html, allow_tags=None, allow_attrs=None): result = [] start = [] data = [] # 特殊的自闭和标签, 按 HTML5 的规则, 如

python 之 BeautifulSoup标签查找与信息提取

一. 查找a标签 (1)查找所有a标签 >>> for x in soup.find_all('a'): print(x) <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a> <a class="sister" href="http://example.com/lacie"

python之body标签中的相关标签2(14)

今日主要内容: 列表标签 <ul>.<ol>.<dl> 表格标签 <table> 表单标签 <fom> 一.列表标签 列表标签分为三种. 1.无序列表<ul>,无序列表中的每一项是<li> 英文单词解释如下: ul:unordered list,"无序列表"的意思. li:list item,"列表项"的意思. 示例: <ul> <li>张三</li&g

doraemon的python 前段开发 标签的认识及运用

## 第十一章 前端开发 html 超文本标记语言 html特征: - 对换行和空格不敏感 - 空白折叠(无论多少空格都折叠程) ### 11.1 标签 标签: - 双闭合标签<html></html> - 单闭合标签<meta charset='UTF-8'> head标签: - meta 基本网络元信息标签 - title 网络的标签 - link 链接css文件 - script 链接JavaScript文件 - style 内嵌样式 body标签: - h1-h

Python中url标签使用详解

url标签: 1.在模板中,我们经常要使用一些url,实现页面之间的跳转,比如某个a标签中需要定义href属性.当然如果通过硬编码的方式直接将这个url固定在里面也是可以的,但是这样的话,对于以后进行代码的维护,可能就比较麻烦,因此建议使用这种动态的方式来实现,类似于django中reverse一样.示例代码如下: <li><a href="/">首页</a></li> {# 此时采用动态获取url的方式,使用url标签可以在DTL模板中