Python库-BeautifulSoup

sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser")

方法

1.sp.title

返回网页标题

2.sp.text

返回去除所有HTML标签后的网页内容

3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs)

该函数返回值为字符串

第一个参数是标签名字,第二个是个网页属性的字典,例如:

<a href = "http://www.baidu.com"
class = "sister" id = "link1">Elsie</a>
sp.find("a",{"id":"link1"})
sp.find("a",{"href":"http://www.baidu.com"})

4.sp.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

第一个参数可以是多个标签名字构成的列表,例如:

sp.find([‘a‘,‘b‘],{"id":"link1"})

5.sp.select(selector, _candidate_generator=None, limit=None)

该函数返回值为列表

第一个参数可以是控件id值,要在引号之内加入#,例如:

t = m.select("#userAccount")
# 输出 [<input id="userAccount" style="position:absolute; top:7px;" type="text" value=""/>]

第一个参数也可以是css类名,例如:

<p class ="title"><b>文件标题</b></p>
datal = sp.select(".title")

6.get(属性名称)

<a href = "http://www.baidu.com"
class = "sister" id = "link1">Elsie</a>
datal = sp.find("a",{"id":"link1"})
print(datal.get("href"))
# 输出 http://www.baidu.com

原文地址:https://www.cnblogs.com/woxiaosade/p/10014134.html

时间: 2024-10-17 07:14:46

Python库-BeautifulSoup的相关文章

20个必不可少的Python库

转载:http://www.python123.org/tutorials/58b41f2a28c8f30100bd41dc 读者们好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都应该有它. Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的.用过它之后你就不会再想用别的同类库了. wxPython.Python的一个GUI(图形用户界面

Python 库大全

作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. Awesome Python中文版来啦! 本文由 伯乐在线 - 艾凌风 翻译,Namco 校稿.未经许可,禁止转载!英文出处:github.com.欢迎加入翻译组. 原文链接:Python 资源大全 1200+收藏,600+赞,别只顾着自己私藏呀朋友们 ------------

1000个经常使用的Python库和演示样例代码

以下是programcreek.com通过分析大量开源码,提取出的最经常使用的python库. 1. sys    (4627) 2. os    (4088) 3. re    (3563) 4. time    (3195) 5. datetime    (2214) 6. random    (2135) 7. unittest    (1928) 8. logging    (1909) 9. urllib    (1884) 10. subprocess    (1756) 11. s

python+urllib+beautifulSoup实现一个简单的爬虫

urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 1.安装python最新安装包3.5.2 下载地址:https://www.python.org/ 注:安装的时候注意勾选添加到PATH(系统环境变量)中 验证安装是否成功

Python库资源大全【收藏】

本文是一个精心设计的Python框架.库.软件和资源列表,是一个Awesome XXX系列的资源整理,由BigQuant整理加工而成,欢迎扩散.欢迎补充! 对机器学习.深度学习在量化投资中应用感兴趣的朋友可以直接在BigQuant人工智能量化投资平台上开发策略~~~ 本文目录: 算法和设计模型 构建工具 缓存 代码分析 命令行工具 兼容性 计算机视觉 并发和并行 加密 数据分析 数据验证 数据可视化 数据框驱动 数据库 日期和时间 调试工具 深度学习 文档 下载器 电子商务 编辑器插件和IDE

Python库资源大全

转载地址:https://zhuanlan.zhihu.com/p/27350980 本文是一个精心设计的Python框架.库.软件和资源列表,是一个Awesome XXX系列的资源整理,由BigQuant整理加工而成,欢迎扩散.欢迎补充!对机器学习.深度学习在量化投资中应用感兴趣的朋友可以直接在BigQuant人工智能量化投资平台上开发策略~~~ 本文目录: 算法和设计模型 构建工具 缓存 代码分析 命令行工具 兼容性 计算机视觉 并发和并行 加密 数据分析 数据验证 数据可视化 数据框驱动

Python库大全

通用: urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup -一个与网站自动交互Python库. mechanize -有状态

Python库大全,建议收藏留用!

学Python,想必大家都是从爬虫开始的吧.毕竟网上类似的资源很丰富,开源项目也非常多. Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会发生什么? 简单来说这段过程发生了以下四个步骤: 1.查找域名对应的IP地址. 2.向IP对应的服务器发送请求. 3.服务器响应请求,发回网页内容. 4.浏览器解析网页内容. 那么学习爬虫需要掌握哪些库呢? 通用: 1.   urllib -网络库(stdlib). 2.   requests -网络库

连续加班一周最终把所有的Python库整理出来了,愿各位早日学会Python!

我们直接开始主题,小伙伴们需要资料的话可以私信我回复01,可以获得大量PDF书籍和视频! Python常用的库简单介绍一下 fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable 主要用于在终端或浏览器端构建格式化的输出. difflib ,[Python]标准库,计算文本差异 . Levenshtein ,快速计算字符串相似度. Chardet 字符编码探测器,可以自动检测文本.网页