Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库

from bs4 import BeautifulSoup

0.BeautifulSoup网页解析库包含的几个解析器

Python标准库【主要,系统自带;】

使用方法： BeautifulSoup(markup,"html.parser")【注：markup是html文档】

Python的内置标准库

案例：

` from bs4 import BeautifulSoup

` soup = BeautifulSoup.(html,‘html.parser‘)

` print(soup.title.string)```

lxmlHTML解析器

BeautifulSoup(markup,‘lxml)

速度快、需要安装C语言库
lxml XML解析器

使用方法：BeautifulSoup(markup,"xml")

速度快，唯一支持XML的解析器、需要安装C语言库
html5lib
BeautifulSoup(markup,"html5lib")

容错性好，以浏览器的形式解析文档，生成html5格式的文档，但是速度慢

1.BeautifulSoup基本使用



#!/usr/bin/env python
# -*- coding:utf-8 -*- 

html="""
    <html>
        <head>
            <title>The Domouse‘s story</title>
        </head>
        <body>
            <p class="title" name="Domouse"><b>The Domouse‘s story</b></p>
            <p class="story">Once upon a time there were three little sisters;and their names were</p>
            <a href="http://www.baidu.com">百度</a>
            <p class="story">...</p>
        </body>
    </html>
    """
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,‘lxml‘)
#获取标签正文内容
print("标签内正文内容：" + soup.title.name)
#获取属性内容
print("属性内容" + soup.p.attrs[‘name‘])
#获取内容
print("获取内容" + soup.p.string)
#获取嵌套内容（多个筛选条件）
print("获取嵌套内容" + soup.head.title.string)
#子节点 和 孙节点【重要，，当目标标签没有id 或 class时候必须用这个】
print("子节点" + soup.p.contents)   #全部子节点，返回的是列表形式
print("子节点" + soup.p.contents[2])   #第三个一级子节点，不管是什么标签
#1. 子节点#子节点【迭代器，只能用循环形式拿到数据】
soup = BeautifulSoup(html,"lxml")
print(soup.p.children)
for i,child in enumerate(soup.p.children):
    print(i,child)
#2.子孙节点
soup = BeautifulSoup(html,"lxml")
print(soup.p.descendants)
for i,child in enumerate(soup.p.descendants):
    print(i,child)
#父节点 和 祖先借点
print(list(enumerate("父节点：" + soup.a.parent))) #父节点
print(list(enumerate("祖父节点：" + soup.a.parent))) #祖父点
#获取兄弟节点

print("后面的兄弟节点" + list(enumerate(soup.a.next_siblings)))    #后面的兄弟节点
print("前面的兄弟节点" + list(enumerate(soup.a.previous_slblings)))    #前面的兄弟节点

原文地址：https://www.cnblogs.com/hellangels333/p/8595477.html

时间： 2024-10-12 16:17:49

Python_爬虫_BeautifulSoup网页解析库的相关文章

网页解析库-Xpath语法

网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索. 爬虫我们需要抓取的只是某个网站或者应用的一部分内容结构化先有结构再有数据转化为字典处理(如:json => dict) 非结构化 html 正则 lxml bs4等去解析安装: pip install beautifu

爬虫学习——网页解析器Beautiful Soup

一.Beautiful Soup的安装与测试官方网站:https://www.crummy.com/software/BeautifulSoup/ Beautiful Soup安装与使用文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 1.首先测试一下bs4模块是否已经存在,若不存在再安装即可,我用的是kali测试发现bs4模块已经存在,下面介绍如何测试与安装新建python文档输入以下代码 1 import bs4 2

Python3编写网络爬虫05-基本解析库XPath的使用

一.XPath 全称 XML Path Language 是一门在XML文档中查找信息的语言最初是用来搜寻XML文档的但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了非常简洁的路径选择表达式,另外还提供了超过100个内置函数,用于字符串,数值,时间的匹配以及节点和序列的处理 XPath 于1999年11月16日成为W3C标准被设计为供XSLT.XPointer.以及其它XML解析软件使用 1 <<< 2 常用规则 3 4 表达式描述 5 6 node

强大的网页解析库，Beautiful Soup官方文档

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 阅读地址:http://beautifulsoup.readthedocs.org/en/latest/

第三节：Web爬虫之BeautifulSoup解析库

Beautiful Soup官方说明: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了.然后,你仅仅需要说明一下原始编码方

Python_爬虫_数据解析回顾

--数据解析原理 --定位标签 --提取标签中存储的数据 --xpath解析原理 --实例化一个etree的对象且将解析的页面源码数据加载到该对象中 --通过xpath方法(返回值:列表)结合者xpath表达式进行数据解析 -- //tagName -- //tagName[@attr = 'value'] -- //tagName[index] -- /text() //text() -- /@attrName --bs4解析原理 --实例化一个bs4的对象且将解析的页面源码数据加载到该对象中

Python爬虫之xlml解析库

1.Xpath Xpath是一门在XML中查找信息的语言,可用来在XML文档中对元素和属性进行遍历.XQuery和xpoint都是构建于xpath表达之上 2.节点父(parent),子(children),兄弟(sibling),先辈(ancetstor),后代(Decendant) 3.选取节点路径表达式表达式描述路径表达式结果 nodename 选取此节点上的所有的子节点 bookstore 选取bookstore元素的所有子节点 / 从根节点上选取 /bookstore 选取

转：Python网页解析：BeautifulSoup vs lxml.html

转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html,其中前者可能更知名一点吧,熊猫开始也是使用的BeautifulSoup,但是发现它实在有几个问题绕不过去,因此最后采用的还是lxml: 1. BeautifulSoup太慢.熊猫原来写的程序是需要提取不定网页里的正文,因此需要对网页进行很多DOM解析工作,经过测试

第四部分解析库的使用（XPath、Beautiful Soup、PyQuery）

在网页节点中,可以定义id.class或其他属性.节点间有层次关系,网页中要通过XPath或CSS选择器定位一个或多个节点.在页面解析时,可利用XPath或CSS选择器提取某个节点,再调用相应方法获取它的正文内容或者属性,就可提取到想要的信息.在python中常用的解析库有lxml.Beautiful Soup.pyquery等.使用这些库可以很大程度上提高效率. 一使用XPath解析库 XPath,全称XML Path Language,即XML路径语言,是一门在XML文档中查找信息的语言.

Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库

0.BeautifulSoup网页解析库包含 的 几个解析器

1.BeautifulSoup基本使用

Python_爬虫_BeautifulSoup网页解析库的相关文章

0.BeautifulSoup网页解析库包含的几个解析器