Python:BeautifulSoup移除某些不需要的属性



很久之前,我看到一个问题,大概是:

他爬了一段html,他获取下了所需的部分(img标签部分),但是不想保留img标签的某些属性,

比如

<img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png"  />
怎么将img标签里边的 alt属性,width属性, 给去除掉啊

我是很懒的,能用工具的,就不自己写,他原意是使用re模块来处理。

但我还是想利用BeautifulSoup来处理。于是有了下面的代码:

主要思路是利用del来删除了img标签里面的alt和width属性

from bs4 import BeautifulSoup
html=‘<img width="147" height="52"src="http://127.0.0.1:80/admin/../upload/pimg1054_1.png"  />‘

soup=BeautifulSoup(html,"html.parser")
del soup.img["alt"]
del soup.img["width"]
print(soup)

结果:

问题在下面:有人给了利用re来处理的方式,如果想了解一下,可以看一下。主要思想是匹配不需要的字符串,字符串匹配成功后进行空字符串取代。

附-博问地址:

https://q.cnblogs.com/q/105540/



Python:BeautifulSoup移除某些不需要的属性

原文地址:https://www.cnblogs.com/progor/p/9188732.html

时间: 2024-10-09 20:05:04

Python:BeautifulSoup移除某些不需要的属性的相关文章

python BeautifulSoup模块的安装

python BeautifulSoup模块的安装 ···一个BeautifulSoup的模块,安装就浪费了俺这么长时间,下载的是BeautifulSoup4-4.1.3, 安装的时候就是 python setup.py build python setup.py install 就这么简单的两个命令,因为安装之前也看了下别人的就是这样,可是自己import的时候,总出错,弄了半天才搞好,原来是版本升级到4, 引入包要用 import bs4 from bs4 import BeautifulS

[Python]BeautifulSoup—HTML解析包

今天真机调试的时候莫名其妙遇到了这样的一个问题: This product type must be built using a provisioning profile, however no provisioning profile matching both the identity "iPhone Developer" and the bundle identifier..... 具体如下图所示: 十分蛋疼, 发现不管是从网上下的demo, 还是自己的过程.凡事真机测试的时候都

python : BeautifulSoup 网页数据分析

很长时间都是在学习各位大神的力作,并汲取了不少养料,在此一并谢过各位大神了. 当然了,好东西是要跟大家一起分享的,最近发现了几个非常不错的个人站点,都是介绍IOS开发的,其中有唐巧.破船之长.池建强.王维等各位,其中不乏供职于腾讯和阿里这样的IT巨头,希望大家也能从他们的博客中学习到一些技术之外的东西.就不再啰嗦啦,附上地址:http://www.ityran.com/archives/4647 这几天在学习IOS7 CookBook,因为没有找到中文版,就硬着头皮啃原著吧,还真学到了不少东西,

JavaScript的DOM_获取/设置/移除特定元素节点的属性_getAttribute()/setAttribute()/removeAttribute()

一.获取特定元素节点的属性的值_getAttribute() 1.getAttribute()方法将获取元素中某个属性的值.它和直接使用.属性获取属性值的方法有一定区别. <script type="text/javascript"> window.onload = function(){ var box = document.getElementById('box'); alert(box.bbb); // 获取元素的自定义属性值,非 IE 不支持 自定义的属性不可以,结

转 python通过win32api轻松获取控件的属性值

python通过win32api轻松获取控件的属性值 2014-08-29 15:26:56|  分类: 自动化测试 |  标签:win32  |举报|字号 订阅 下载LOFTER我的照片书  | 1.如何利用句柄操作windows窗体 首先,获得窗体的句柄  win32api.FindWindows() 第二,获得窗体中控件的id号,spy++ 第三,根据控件的ID获得控件的句柄(hwnd)  GetDlgItem(hwnd,loginID) 最后,利用控件句柄进行操作 python可以通过w

python BeautifulSoup获取网页正文

通过BeautifulSoup库的get_text方法找到网页的正文: #!/usr/bin/env python #coding=utf-8 #HTML找出正文 import requests from bs4 import BeautifulSoup url='http://www.baidu.com' html=requests.get(url) soup=BeautifulSoup(html.text) print soup.get_text()

python BeautifulSoup获取 网页链接的文字内容

这里和 获取链接略有不同,不是得到链接到url,而是获取每个链接的文字内容 #!/opt/yrd_soft/bin/python import re import urllib2 import requests import lxml from bs4 import BeautifulSoup url = 'http://www.baidu.com' #page=urllib2.urlopen(url) page=requests.get(url).text pagesoup=Beautiful

Python - BeautifulSoup 安装

BeautifulSoup 3.x 1. 下载 BeautifulSoup. [[email protected] python]$ wget http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.2.1.tar.gz 2. 解压缩. [[email protected] python]$ tar zxvf BeautifulSoup-3.2.1.tar.gz 3. 安装 BeautifulSoup 模

Python beautifulsoup模块

BeautifulSoup中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html BeautifulSoup下载:http://www.crummy.com/software/BeautifulSoup/ 解压到任意目录 在cmd控制台下进入目录 执行:python setup.py install即可: 执行完后命令行进入python使用import bs4命令验证是否成功: