Python3 BeautifulSoup和Pyquery解析库随笔

BeautifuSoup和Pyquery解析库方法比较

1.对象初始化：

BeautifySoup库：

1 from bs4 import BeautifulSoup
2
3 html = ‘html string......‘
4 soup = BeautifulSoup(html, ‘lxml‘)

Pyquery库：

1 from pyquery import PyQuery as pq
2
3 # 以字符串初始化
4 html = ‘html string...‘
5 doc = pq(html)
6 # 以url初始化
7 doc = pq(url=‘https://....‘)
8 # 以文件初始化
9 doc = pq(filename=‘XXX.html‘)

2. 节点属性获取：

BeautifuSoup库：

1 # 在根据节点选择器、方法选择器或者CSS选择器，选择出节点（例如：li）后，两种方法获取属性值
2 value = li[‘attr_name‘]
3 value = li.attrs[‘attr_name‘]

Pyquery库：

1 # 在根据CSS选择器定位到节点（例如li）后，两种方法获取属性值
2 value = li.attr.attr_name
3 value = li.attr(‘attr_name‘)

3. 文本内容获取：

BeautifulSoup库：

# 在根据节点选择器、方法选择器或者CSS选择器，选择出节点（例如：li）后，两种方法获取属性值
text = li.string
text = li.get_text()

Pyquery库：

1 # 在根据CSS选择器定位到节点（例如li）后
2 text = li.text()

原文地址：https://www.cnblogs.com/strivepy/p/9253311.html

时间： 2024-11-09 07:35:24

Python3 BeautifulSoup和Pyquery解析库随笔的相关文章

第四部分解析库的使用（XPath、Beautiful Soup、PyQuery）

在网页节点中,可以定义id.class或其他属性.节点间有层次关系,网页中要通过XPath或CSS选择器定位一个或多个节点.在页面解析时,可利用XPath或CSS选择器提取某个节点,再调用相应方法获取它的正文内容或者属性,就可提取到想要的信息.在python中常用的解析库有lxml.Beautiful Soup.pyquery等.使用这些库可以很大程度上提高效率. 一使用XPath解析库 XPath,全称XML Path Language,即XML路径语言,是一门在XML文档中查找信息的语言.

解析库之beautifulsoup，pyquery

Beautifulsoup模块 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发. 官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 官网推荐使用lxml作为解析器,因为效率更高. 在Python

解析库之re、beautifulsoup、pyquery

BeatifulSoup模块一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip instal

第三篇：解析库之re、beautifulsoup、pyquery(转)

一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip install beautifulsoup

93、解析库之re，Beautifulsoup

本篇导航: 介绍基本使用遍历文档树搜索文档树总结 re模块在之前的python进阶中有讲过不再做过多的阐述,本篇为BeautifulSoup库的分析 20.collections模块和re模块(正则表达式详解) 一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文

Python爬虫【解析库之beautifulsoup】

解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulSoup html='''<div class="panel"> <div class="panel-heading"> <h4>Hello</h4> </div> <div class="pan

解析库之beautifulsoup模块

一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间,你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip install beautifulsoup4 #

爬虫解析库re,Beautifulsoup,

re模块点我回顾 Beautifulsoup模块 #安装 Beautiful Soup pip install beautifulsoup4 #安装解析器 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml: $ apt-get install Python-lxml $ easy_install lxml $ pip install lxml 另一个可供选择的解析器是纯Pyt

（最全）Xpath、Beautiful Soup、Pyquery三种解析库解析html 功能概括

一.Xpath 解析 ? xpath:是一种在XMl.html文档中查找信息的语言,利用了lxml库对HTML解析获取数据. Xpath常用规则: nodename :选取此节点的所有子节点 // :从当前节点选取子孙节点 / :从当前节点选取子节点 . : 选取当前节点 .. : 选取当前节点父节点 @ : 选取属性 1.初始化html etree.parse()是初始化html构造一个XPath解析对象: etree.tostring()是修复html文件中代码,把缺的