Python 清理HTML标签相似PHP的strip_tags函数功能(二)

没有发现Python 有现成的类似功能模块,所以昨天写了个简单的 strip_tags 但还有些问题,今天应用到採集上时进行了部分功能的完好,

1. 对自闭和标签处理

2. 以及对标签參数的过滤

from html.parser import HTMLParser

def strip_tags(html, allow_tags=None, allow_attrs=None):
    result = []
    start = []
    data = []
    # 特殊的自闭和标签, 按 HTML5 的规则, 如 <br> <img> <wbr> 不再使用 /> 结尾
    special_end_tags = [
        'area', 'base', 'br', 'col', 'embed', 'hr',
        'img', 'input', 'keygen', 'link', 'meta', 'param',
        'source', 'track', 'wbr'
    ]

    def starttag(tag, attrs):
        if tag not in allow_tags:
            return
        start.append(tag)
        my_attrs = []
        if attrs:
            for attr in attrs:
                if allow_attrs and attr[0] not in allow_attrs:
                    continue
                my_attrs.append(attr[0] + '="' + attr[1] + '"')
            if my_attrs:
                my_attrs = ' ' + (' '.join(my_attrs))
            else:
                my_attrs = ''
        else:
            my_attrs = ''

        result.append('<' + tag + my_attrs + '>')

    def endtag(tag):
        if start and tag == start[len(start) - 1]:
            # 特殊自闭和标签依照HTML5规则不加反斜杠直接尖括号结尾
            if tag not in special_end_tags:
                result.append('</' + tag + '>')

    parser = HTMLParser()
    parser.handle_data = result.append
    if allow_tags:
        parser.handle_starttag = starttag
        parser.handle_endtag = endtag
    parser.feed(html)
    parser.close()

    for i in range(0, len(result)):
        tmp = result[i].rstrip('\n')
        tmp = tmp.lstrip('\n')
        if tmp:
            data.append(tmp)

    return ''.join(data)
时间: 2024-11-12 15:16:14

Python 清理HTML标签相似PHP的strip_tags函数功能(二)的相关文章

Python 清理HTML标签类似PHP的strip_tags函数功能(二)

没有发现Python 有现成的类似功能模块,所以昨天写了个简单的 strip_tags 但还有些问题,今天应用到采集上时进行了部分功能的完善, 1. 对自闭和标签处理 2. 以及对标签参数的过滤 from html.parser import HTMLParser def strip_tags(html, allow_tags=None, allow_attrs=None): result = [] start = [] data = [] # 特殊的自闭和标签, 按 HTML5 的规则, 如

Python 实现类似PHP的strip_tags函数功能,并且可以自定义设置保留标签

最近在研究 Python ,发现用的还是很不习惯,很多PHP里面很简单的功能在Python 里面都得找半天,而且很多功能都得自己实现. 今天做个采集,需要过滤内容中的标签,搞了一下午,貌似终于搞出来了,测试了下达到了预想的效果,废话不多说贴上代码吧 from html.parser import HTMLParser def strip_tags(html, save=None): result = [] start = [] data = [] def starttag(tag, attrs)

php 使用htmlspecialchars() 和strip_tags函数过滤HTML标签的区别

原文地址:http://www.manongjc.com/article/1103.html 先来看一下htmlspecialchars函数和strip_tags函数的使用实例: <?php $str="<a href='http://www.manongjc.com'>码农教程'\"</a>"; echo htmlspecialchars($str); echo "<br/><br/>"; echo

五、Python Django模板标签

Python Django模板标签 一.if.for标签 # cat blog/views.py from django.shortcuts import render_to_response def index(req): user = {'name':'loyu','age':23,'sex':'male'} book_list = ['python','java','php','web'] return render_to_response('index.html',{'title':'L

strip_tags() 函数剥去 HTML、XML 以及 PHP 的标签

定义和用法 strip_tags() 函数剥去 HTML.XML 以及 PHP 的标签. 语法 strip_tags(string,allow) 参数 描述 string 必需.规定要检查的字符串. allow 可选.规定允许的标签.这些标签不会被删除. 提示和注释 注释:该函数始终会剥离 HTML 注释.这点无法通过 allow 参数改变. 例子 例子 1 <?php echo strip_tags("Hello <b>world!</b>"); ?&g

PHP strip_tags() 函数

定义和用法 strip_tags() 函数剥去 HTML.XML 以及 PHP 的标签. 语法 strip_tags(string,allow) 参数 描述 string 必需.规定要检查的字符串. allow 可选.规定允许的标签.这些标签不会被删除. 提示和注释 注释:该函数始终会剥离 HTML 注释.这点无法通过 allow 参数改变. 例子 例子 1 <?php echo strip_tags("Hello <b>world!</b>"); ?&g

strip_tags() 函数

定义和用法 strip_tags() 函数剥去 HTML.XML 以及 PHP 的标签. 语法 strip_tags(string,allow) 参数 描述 string 必需.规定要检查的字符串. allow 可选.规定允许的标签.这些标签不会被删除. 提示和注释 注释:该函数始终会剥离 HTML 注释.这点无法通过 allow 参数改变. 例子 1 <?php echo strip_tags("Hello <b>world!</b>"); ?>

python之最强王者(9)——函数

1.Python 函数 函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段. 函数能提高应用的模块性,和代码的重复利用率.你已经知道Python提供了许多内建函数,比如print().但你也可以自己创建函数,这被叫做用户自定义函数. 定义一个函数 你可以定义一个由自己想要功能的函数,以下是简单的规则: 函数代码块以 def 关键词开头,后接函数标识符名称和圆括号(). 任何传入参数和自变量必须放在圆括号中间.圆括号之间可以用于定义参数. 函数的第一行语句可以选择性地使用文档字符串—

java python oracle判断字符串是否为数字的函数

java public boolean isNumeric(String str){ Pattern pattern = Pattern.compile("^-?[0-9]+\\.?[0-9]+"); Matcher isNum = pattern.matcher(str); if( !isNum.matches() ){ return false; } return true; } python def isNum(value): try: int(value) + 1 except