Python3正则去掉HTML标签

Python3正则去掉HTML标签

1.引用一段代码

import re

html = ‘<pre class="line mt-10 q-content" accuse="qContent">目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>‘

reg = re.compile(‘<[^>]*>‘)

print(reg.sub(‘‘,html))

2.重点

reg = re.compile(‘<[^>]*>‘)

print(reg.sub(‘‘,html))

3.实例

开始

import requests
import re
from bs4 import BeautifulSoup
retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
    #rurl=rurl.strip(‘\n‘)
    url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
    #print(url)
    try:

        response=requests.get(url,timeout=1).text
        #print(response)
        soup=BeautifulSoup(response,features="lxml")
        result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
        print(‘学校:{0}‘.format(result))
    except requests.exceptions.InvalidURL:
        pass
    except requests.exceptions.ConnectionError:
        pass
    except requests.exceptions.ReadTimeout:
        pass

输出

学校:[<span class="l_schoolName2" id="schoolName2">
                                杭州师范大学
                        </span>]
学校:[<span class="l_schoolName2" id="schoolName2">

去除标签之后

import requests
import re
from bs4 import BeautifulSoup
#retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
    #rurl=rurl.strip(‘\n‘)
    url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
    #print(url)
    try:

        response=requests.get(url,timeout=1).text
        #print(response)
        soup=BeautifulSoup(response,features="lxml")
        result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
        reg=re.compile(‘<[^>]*>‘,re.S)
        print(‘学校:{0}‘.format(reg.sub(‘‘,str(result))))
    except requests.exceptions.InvalidURL:
        pass
    except requests.exceptions.ConnectionError:
        pass
    except requests.exceptions.ReadTimeout:
        pass

输出

学校:[]
学校:[]
学校:[
                                上海电子信息职业技术学院
                        ]
学校:[]
学校:[
                                超星大学

原文地址:https://www.cnblogs.com/8gman/p/12308178.html

时间: 2024-08-05 20:14:57

Python3正则去掉HTML标签的相关文章

正则去掉 html标签

var htmlStr='<p class="cjk" style="margin-bottom: 0cm; line-height: 16px;">关于融托优选<font face="Calibri, sans-serif"><span>APP</span></font>正式发布的通知!</p><p class="cjk" style="

python去掉html标签

s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></SPAN>' import re d = re.sub('<[^

strip_tags去掉HTML标签失败

现在有这样一个需求: 编辑器里面可以插入图片,添加新闻的内容,现在要从新闻的内容中截取一部分的文字,作为该篇新闻的描述,怎样做简单? 思路: 先用strip_tags函数去掉HTML标签,然后用 msubstr(这个函数不是TP自带的,需要手动加上)函数截取字符串 问题: strip_tags函数去掉HTML标签,失败 解决办法: 先用htmlspecialchars_decode($news_content)把一些预定义的 HTML 实体转换为字符,然后msubstr($str) $news_

javascript正则找script标签, link标签里面的src或者 href属性

1. [代码]javascript 简单的search    <script(?:(?:\s|.)+?)src=[\"\'](.+?)[\"\'](?!\<)(?:(?:\s|.)*?)(?:(?:\/\>)|(?:\>\s*?\<\/script\>)) <script  src="sdfsdf/sdfd.js"          type="text/javascript"  /><scr

Python:使用正则去除HTML标签(转)

# -*- coding: utf-8-*-import re##过滤HTML中的标签#将HTML中标签等信息去掉#@param htmlstr HTML字符串.def filter_tags(htmlstr):#先过滤CDATA re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*s

去掉a标签超链接的虚线框的方法

去掉a标签超链接的虚线框的方法,需要的朋友可以参考下. a{ blr:expression(this.onFocus=this.blur()); /* IE Opera */ outline:none; /* FF Opera */ } a:focus{ -moz-outline-style: none; /* FF */ } 全 局控制 CSS实现 a{blr:expression(this.onFocus=this.close());} /* 只支持IE,过多使用效率低 */ a{blr:e

PHP中去掉HTML标签

 平时用我们使用htmlspecialchars() 来过滤html, 但是把html的字符转义了,最后显示出来的就是html源代码. 利用strip_tags()就可以把html标签去除掉. <?php $str = '<a href="#">href</a>'; //echo htmlspecialchars($str); echo strip_tags($str); ?> 很多网站首页都有一片文章的一小部分.在这里就要使用strip_tag

正则清除HTML标签但保留其中一部分标签

很多时候我们正则清除HTML标签但总希望保留其中一部分标签 用asp语言实现 str="<a href=""a.htm"">a.htm</a><div>afefe</div>feaa<b>bbb</b> <a href=http://www.baidu.com id=""ggg"">ggg</a><abbr>测

去掉a标签的下划线

<a>标签的伪类样式 一组专门的预定义的类称为伪类,主要用来处理超链接的状态.超链接文字的状态可以通过伪类选择符+样式规则来控制.伪类选择符包括: 总: a          表示所有状态下的连接 如 a{color:red} ① a:link:未访问链接 ,如 a:link {color:blue} ② a:visited:已访问链接 ,如 a:visited{color:blue} ③ a:active:激活时(链接获得焦点时)链接的颜色 ,如 a:active{color:blue} ④