python之Beautiful Soup库

1、简介

　　简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

　　Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

　　Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

　　Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

2、环境安装

　　Beautiful Soup 3 目前已经停止开发，推荐在现在的项目中使用Beautiful Soup 4，不过它已经被移植到BS4了，也就是说导入时我们需要 from bs4 import BeautifulSoup 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

　　1、快速安装

1	`pip install beautifulsoup4`

　　2、如果想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法

　　　　1、Beautiful Soup3.2.1

　　　　https://pypi.python.org/pypi/BeautifulSoup/3.2.1

　　　　2、Beautiful Soup4.3.2

　　　 https://pypi.python.org/pypi/beautifulsoup4/

　　　　下载完成之后解压

　　　　运行下面的命令即可完成安装

　　　　python setup.py install

　　3、然后需要安装 lxml

　　　pip install lxml

　　　另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

　　　pip install html5lib

　　 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

3. 使用方法

　　最佳方法参考官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

原文地址：https://www.cnblogs.com/xiaobingqianrui/p/9973505.html

时间： 2024-07-31 06:28:28

python之Beautiful Soup库

1、简介

2、环境安装

3. 使用方法

python之Beautiful Soup库的相关文章

Python网络爬虫与信息提取-Beautiful Soup 库入门

Python爬虫学习（二）使用Beautiful Soup库

【Python爬虫学习笔记（2）】Beautiful Soup库相关知识点总结

python beautiful soup库的超详细用法

Beautiful Soup 库基础知识

python 之beautiful soup 4 warning

python Beautiful Soup 抓取解析网页

【Python爬虫学习实践】基于Beautiful Soup的网站解析及数据可视化

Beautiful Soup 4.2.0 文档