在Python中使用正则表达式去掉字符串里的html标签

有时候会获得一些带html标签的字符串,需要把html标签去掉,获得干净的字符串,这时候可以使用正则表达式。

代码如下:

import re
htmeString = ‘‘‘    <ul id="TopNav">        <li><a href="/EditPosts.aspx" id="TabPosts">随笔</a></li>        <li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>        <li><a href="/EditDiary.aspx" id="TabDiary">日记</a></li>        <li><a href="/Feedback.aspx" id="TabFeedback">评论</a></li>        <li><a href="/EditLinks.aspx" id="TabLinks">链接</a></li>        <li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相册</a></li>        <li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>        <li><a href="/Configure.aspx" id="TabConfigure">设置</a></li>        <li><a href="/Preferences.aspx" id="TabPreferences">选项</a></li>    </ul>‘‘‘

# 方法 1
pre = re.compile(‘>(.*?)<‘)
s1 = ‘‘.join(pre.findall(htmlString))print(s1)   # ‘随笔文章日记评论链接相册文件设置选项‘

# 方法 2
s2 = re.sub(r‘<.*?>‘,‘‘,htmlString)print(s2)   # ‘\n\n随笔\n文章\n日记\n评论\n链接\n相册\n文件\n设置\n选项\n\n‘

# 再用str.replace()函数去掉‘\n‘s2 = s2.replace(‘\n‘,‘‘)print(s2)   # ‘随笔文章日记评论链接相册文件设置选项‘

完。

原文地址:https://www.cnblogs.com/yuanyiming/p/9902725.html

时间: 2024-11-10 14:03:56

在Python中使用正则表达式去掉字符串里的html标签的相关文章

C# 使用正则表达式去掉字符串中的数字

C# 使用正则表达式去掉字符串中的数字 // 去掉字符串中的数字public static string RemoveNumber(string key){    return System.Text.RegularExpressions.Regex.Replace(key, @"\d", "");} // 去掉字符串中的非数字public static string RemoveNotNumber(string key){    return System.Tex

Python学习-37.Python中的正则表达式

作为一门现代语言,正则表达式是必不可缺的,在Python中,正则表达式位于re模块. 1 import re 这里不说正则表达式怎样去匹配,例如\d代表数字,^代表开头(也代表非,例如^a-z则不匹配任何小写字符),$代表结尾,这些百科或者其他书籍都有. 例子一,字符串中是否包含数字: 1 import re 2 userinput = input("please input test string:") 3 if re.match(r'\d',userinput): 4 print(

如何理解Python中的正则表达式(2)

今天小编要跟大家分享的文章是如何理解Python中的正则表达式(2)?上节课我们简单认识了一下Python中的正则表达式,这节课我们继续了解Python正则表达式的相关内容,Python入门新手和正在Python学习的小伙伴快来看一看吧,希望能够对大家有所帮助 ! 今天为大家解决上节课中的部分疑问,比如r代表什么,来一起学习吧: 有同学问起昨天那段测试代码里的问题,我来简单说一下. 1. r”hi” 这里字符串前面加了r,是raw的意思,它表示对字符串不进行转义.为什么要加这个?你可以试试pri

Python中re(正则表达式)模块函数学习

今天学习了Python中有关正则表达式的知识.关于正则表达式的语法,不作过多解释,网上有许多学习的资料.这里主要介绍Python中常用的正则表达式处理函数. 方法/属性 作用 match() 决定 RE 是否在字符串刚开始的位置匹配 search() 扫描字符串,找到这个 RE 匹配的位置 findall() 找到 RE 匹配的所有子串,并把它们作为一个列表返回 finditer() 找到 RE 匹配的所有子串,并把它们作为一个迭代器返回 match() 函数只检查 RE 是否在字符串开始处匹配

Python学习-38.Python中的正则表达式(二)

在Python中,正则表达式还有较其他编程语言有特色的地方.那就是支持松散正则表达式了. 在某些情况,正则表达式会写得十分的长,这时候,维护就成问题了.而松散正则表达式就是解决这一问题的办法. 用上一次分组的代码作为例子: 1 import re 2 userinput = input("please input test string:") 3 m = re.match(r'(\d{3,4})-(\d{8})',userinput) 4 if m: 5 print('区号:' + m

python中format函数用于字符串的格式化

python中format函数用于字符串的格式化 通过关键字 print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字 grade = {'name' : '陈某某', 'fenshu': '59'} print('{name}电工考了{fenshu}'.format(**grade))#通过关键字,可用字典当关键字传入值时,在字典前加**即可 通过位置 print('{1}今天{0}'.format('拍视频','陈某某'))#通过位置 print

SQL Server中利用正则表达式替换字符串

原文:SQL Server中利用正则表达式替换字符串 建立正则替换函数,利用了OLE对象,以下是函数代码: --如果存在则删除原有函数 IF OBJECT_ID(N'dbo.RegexReplace') IS NOT NULL DROP FUNCTION dbo.RegexReplace GO --开始创建正则替换函数 CREATE FUNCTION dbo.RegexReplace ( @string VARCHAR(MAX), --被替换的字符串 @pattern VARCHAR(255),

C# 使用正则表达式去掉字符串中的数字,或者去掉字符串中的非数字

/// 去掉字符串中的数字 public static string RemoveNumber(string key)          {              return Regex.Replace(key, @"\d", "");          } //去掉字符串中的非数字public static string RemoveNotNumber(string key)  {      return Regex.Replace(key, @"

Python中的正则表达式(re)

import re re.match #从开始位置开始匹配,如果开头没有则无 re.search #搜索整个字符串 re.findall #搜索整个字符串,返回一个list 举例: r(raw)用在pattern之前,表示单引号中的字符串为原生字符,不会进行任何转义 re.match(r'l','liuyan1').group() #返回l re.match(r'y','liuyan1') #返回None re.search(r'y','liuyan1').group() #返回y 正则表达式可