很久之前,我看到一个问题,大概是:
他爬了一段html,他获取下了所需的部分(img标签部分),但是不想保留img标签的某些属性,
比如
<img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png" />
怎么将img标签里边的 alt属性,width属性, 给去除掉啊
我是很懒的,能用工具的,就不自己写,他原意是使用re模块来处理。
但我还是想利用BeautifulSoup来处理。于是有了下面的代码:
主要思路是利用del来删除了img标签里面的alt和width属性
from bs4 import BeautifulSoup html=‘<img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png" />‘ soup=BeautifulSoup(html,"html.parser") del soup.img["alt"] del soup.img["width"] print(soup)
结果:
问题在下面:有人给了利用re来处理的方式,如果想了解一下,可以看一下。主要思想是匹配不需要的字符串,字符串匹配成功后进行空字符串取代。
附-博问地址:
https://q.cnblogs.com/q/105540/
Python:BeautifulSoup移除某些不需要的属性
原文地址:https://www.cnblogs.com/progor/p/9188732.html
时间: 2024-10-09 20:05:04