python之Beautiful Soup库

1、简介

  简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

  Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

  Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

  Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

2、环境安装

  Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 from bs4 import BeautifulSoup  。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

  1、快速安装


1

pip install beautifulsoup4

  2、如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法

    1、Beautiful Soup3.2.1

    https://pypi.python.org/pypi/BeautifulSoup/3.2.1

    2、Beautiful Soup4.3.2

     https://pypi.python.org/pypi/beautifulsoup4/

    下载完成之后解压

    运行下面的命令即可完成安装

    python setup.py install

  3、然后需要安装 lxml

   pip install lxml

   另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

   pip install html5lib

    Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。

  

3. 使用方法

  最佳方法参考官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

原文地址:https://www.cnblogs.com/xiaobingqianrui/p/9973505.html

时间: 2024-07-31 06:28:28

python之Beautiful Soup库的相关文章

Python网络爬虫与信息提取-Beautiful Soup 库入门

一.Beautiful Soup 库的安装 Win平台:"以管理员身份运行" cmd 执行 pip install beautifulsoup4 安装小测:from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data</p>','html.parser') print(soup.prettify()) 二.Beautiful Soup 库的基本元素 1.BeautifulSoup类 from bs4 impo

Python爬虫学习(二)使用Beautiful Soup库

(一)使用Beautiful Soup库 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: import requests; from _socket import timeout from bs4 import BeautifulSoup #使用Beautiful Soup库需要导包 #from aifc import data def getHTMLText(url): try: r=requests.get(url,timeout

【Python爬虫学习笔记(2)】Beautiful Soup库相关知识点总结

1. Beautiful Soup简介     Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减少爬虫程序的运行时间.     Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了.然后,你仅仅需要说明一下原始编码方式就可以了.     B

python beautiful soup库的超详细用法

原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.html 1. Beautiful Soup 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要

Beautiful Soup 库基础知识

1.安装 cmd------->>pip install beautifulsoup4 2.安装测试. import requests # 导入requests库 from bs4 import BeautifulSoup # 导入美味汤库 r = requests.get("http://python123.io/ws/demo.html") print(r.status_code) # 测试是否连接正常 # print(r.text) # 全部文本信息 demo = r

python 之beautiful soup 4 warning

在使用beautifulsoup4时出现此警告,必应后找到如下解决方案: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a

python Beautiful Soup 抓取解析网页

Beautiful Soup is a Python library designed for quick turnaround projects like screen-scraping.总之就是一个解析xml和html之类的库,用着还算顺手. 官网地址:http://www.crummy.com/software/BeautifulSoup/ 下面来介绍下使用python和Beautiful Soup 抓取一个网页上的PM2.5数据. PM2.5 数据的网站:http://www.pm25.

【Python爬虫学习实践】基于Beautiful Soup的网站解析及数据可视化

在上一次的学习实践中,我们以Tencent职位信息网站为例,介绍了在爬虫中如何分析待解析的网站结构,同时也说明了利用Xpath和lxml解析网站的一般化流程.在本节的实践中,我们将以中国天气网为例,并基于Beautiful Soup库对其进行数据解析,最后再简单说明pyecharts数据可视化. 中国天气网网址:http://www.weather.com.cn/textFC/hb.shtml 和之前的Tencent职位信息实践一样,我们先来分析一下我们所爬取的网站的结构.在中国天气网中,我们可

Beautiful Soup 4.2.0 文档

Beautiful Soup 4.2.0 文档 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 文档中出现的例子在Python2.7和Python3.2中的执行结果相