python学习(25) BeautifulSoup介绍和实战

BeautifulSoup是python的html解析库，处理html非常方便

BeautifulSoup 安装

pip install beautifulsoup4

BeautifulSoup 配合的解析器

# python标准库
BeautifulSoup(html,‘html.parser‘)
#lxml HTML 解析器
BeautifulSoup(html,‘lxml)
#html5lib
BeautifulSoup(html,‘html5lib‘)

python 标准库解析器不需要第三方库，处理效率一般，lxml比较快，需要C语言库支持，html5lib不依赖第三方库，但是效率比较低，容错好。

导入BeautifulSoup并使用

from bs4 import BeautifulSoup
html = ‘‘‘div id="sslct_menu" class="cl p_pop" style="display: none;">
<span class="sslct_btn" onClick="extstyle(‘‘)" title="默认"><i></i></span></div>
<ul id="myitem_menu" class="p_pop" style="display: none;">
<li><a href="https://www.aisinei.org/forum.php?mod=guide&amp;view=my">帖子</a></li>
<li><a href="https://www.aisinei.org/home.php?mod=space&amp;do=favorite&amp;view=me">收藏</a></li>‘‘‘
bs = BeautifulSoup(html)
print(bs.prettify())

bs.prettify为格式化输出，效果如下

同样可以用本地的html文本创建，也可以添加解析器lxml

s =BeautifulSoup(‘test.html‘,‘lxml‘)
print(s.prettify())

效果是一样的

BeautifulSoup属性选择和处理

处理节点tag

 html2 = ‘‘‘ <li class="bus_postbd item masonry_brick">
<div class="bus_vtem">
    <a href="https://www.aisinei.org/thread-17846-1-1.html" title="XIUREN秀人网 2018.11.13 NO.1228 猫宝 [50+1P]" class="preview"  target="_blank">
    "hello world"
       <img src="https://i.asnpic.win/block/a4/a42e6c63ef1ae20a914699f183d5204b.jpg" width="250" height="375" alt="XIUREN秀人网 2018.11.13 NO.1228 猫宝 [50+1P]"/>
               <span class="bus_listag">XIUREN秀人网</span>
    </a>
    <a href="https://www.aisinei.org/thread-17846-1-1.html" title="XIUREN秀人网 2018.11.13 NO.1228 猫宝 [50+1P]"  target="_blank">
        <div class="lv-face"><img src="https://www.aisinei.org/uc_server/avatar.php?uid=2&size=small" alt="发布组小乐"/></div>
        <div class="t">XIUREN秀人网 2018.11.13 NO.1228 猫宝 [50</div>
        <div class="i"><span><i class="bus_showicon bus_showicon_v"></i>6402</span><span><i class="bus_showicon bus_showicon_r"></i>1</span></div>
    </a>
</div>
</li> ‘‘‘
   s2 = BeautifulSoup(html2,‘lxml‘)
   print(s2.a)
   print(s2.a.name)
   print(s2.a.attrs)

节点tag 就是li,a,div这类，可以看出通过属性访问，选择出第一个匹配的结果。节点Tag也有名字，通过.name访问。通过.attrs获取节点的属性。

获取节点文本通过.string即可,获取节点的子孙节点的文本可以通过text

print(s2.a.string)
print(s2.a.text)

节点的子孙节点

获取节点的子节点，可以用.contents,也可以用.children, .contents返回列表形式的直接子节点, .contents返回的是一个可迭代对象。

print(s2.div.contents)
print(s2.div.children)
print(s2.div.contents[0])
for i in s2.div.children:
    print(i)

前两个输出一样，后边的分别取第一个节点，以及遍历每一个节点。同样的道理，子孙节点，父节点，祖父节点，兄弟节点都采用这种方式获取

#孙子节点
print(s2.div.descendants)
#祖先节点
print(s2.div.parents)
#直接父节点
print(s2.div.parent)
#下一个兄弟节点
print(s2.a.next_sibling)
#前一个兄弟节点
print(s2.a.previous_sibling)

节点的属性获取

print(s2.a["href"])
print(s2.a.get("href"))

如上两种方式都能获取属性

方法选择

常用的筛选函数有find_all和find,findall返回所有匹配的结果,find返回匹配结果的

print(s2.find(‘a‘))
print(s2.find_all(‘a‘))
print(s2.find_all(re.compile("^div")))
print(s2.find_all(["div","li"]))

可以看出findall传递参数可以是字符串，正则表达式，列表等等，其他的方法类似属性访问一样，有find_parents(),find_next_siblings()等等，用的时候再查吧。

BeautifulSoup 支持CSS选择器

如果你熟悉css选择器的语法，BeautifulSoup同样支持，而且非常便利。

#查找节点为div的数据
print(s2.select(‘a‘))
#查找class为bus_vtem的节点
print(s2.select(‘.bus_vtem‘))
#查找id为ps的节点
print(s2.select(‘#ps‘))

到目前为止基本的BeautifulSoup已经介绍完，下面实战抓取一段html，并用BeautifulSoup解析提取我们需要的数据，这里解析一段美女图更新首页，提取其中的资源地址。

#-*-coding:utf-8-*-
import requests
import re
import time
from lxml import etree
from bs4 import BeautifulSoup
USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0‘
COOKIES = ‘__cfduid=d78f862232687ba4aae00f617c0fd1ca81537854419; bg5D_2132_saltkey=jh7xllgK; bg5D_2132_lastvisit=1540536781; bg5D_2132_auth=479fTpQgthFjwwD6V1Xq8ky8wI2dzxJkPeJHEZyv3eqJqdTQOQWE74ttW1HchIUZpgsyN5Y9r1jtby9AwfRN1R89; bg5D_2132_lastcheckfeed=7469%7C1541145866; bg5D_2132_ulastactivity=2bbfoTOtWWimnqaXyLbTv%2Buq4ens5zcXIiEAhobA%2FsWLyvpXVM9d; bg5D_2132_sid=wF3g17; Hm_lvt_b8d70b1e8d60fba1e9c8bd5d6b035f4c=1540540375,1540955353,1541145834,1541562930; Hm_lpvt_b8d70b1e8d60fba1e9c8bd5d6b035f4c=1541562973; bg5D_2132_lastact=1541562986%09home.php%09spacecp‘
class AsScrapy(object):
    def __init__(self,pages=1):
        try:
            self.m_session = requests.Session()
            self.m_headers = {‘User-Agent‘:USER_AGENT,
                        #‘referer‘:‘https://www.aisinei.org/‘,
                        }

            self.m_cookiejar = requests.cookies.RequestsCookieJar()
            for cookie in COOKIES.split(‘;‘):
                key,value = cookie.split(‘=‘,1)
                self.m_cookiejar.set(key,value)
        except:
            print(‘init error!!!‘)
    def getOverView(self):
        try:
            req = self.m_session.get(‘https://www.aisinei.org/portal.php‘,headers=self.m_headers, cookies=self.m_cookiejar, timeout=5)
            classattrs={‘class‘:‘bus_vtem‘}
            soup = BeautifulSoup(req.content.decode(‘utf-8‘),‘lxml‘)
            buslist = soup.find_all(attrs=classattrs)
            #print(len(buslist))
            for item in buslist:
                if(item.a.attrs[‘title‘] ==  "紧急通知！紧急通知！紧急通知！"):
                    continue
                print(item.a.attrs[‘title‘])
                print(item.a.attrs[‘href‘])
            time.sleep(1)
            pass
        except:
            print(‘get over view error‘)

if __name__ == "__main__":
    asscrapy = AsScrapy()
    asscrapy.getOverView()

抓取并分析出地址如下

下一篇讲如何利用ajax分析动态网址，实战抓取今日头条的cosplay图片
谢谢关注我的公众号

原文地址：https://www.cnblogs.com/secondtonone1/p/10001760.html

时间： 2024-10-11 21:09:05

python学习(25) BeautifulSoup介绍和实战的相关文章

python学习手册——1介绍python对象类型

在python ,数据以对象的形式出现--无论是python提供的内置对象,还是使用python或是像C扩展库这样的扩展语言工具创建的对象.尽管在以后才能确定这一概念,但对象无非是内在中的一部分,包含数值和相关操作的集合. 由于对象是python 最基本的概念,从这一章开始我们将会全面地体验python的内置对象类型. python程序可以分解成模块,语句,表达式以及对象,如下所示: 1.程序由模块构成 2.模块包含语句 3.语句包含表达式 4.表达式建立并处理对象为什么使用内置类型 1.内置

Python学习笔记-模块介绍（三）-模块包和搜索路径

一个python文件就是一个模块,使用独立的命名空间,但实际使用过程中单单用模块来定义python功能显然还不够.因为一个大型的系统几千上万个模块是很正常的事情,如果都聚集在一起显然不好管理并且有命名冲突的可能,因此python中也出现了一个包的概念. 一.python中的包介绍包是通过使用"点模块名称"创建Python模块命名空间的一种方法.列如,模块名称 A.B 表示一个在名为 A的包下的名为B的子模块.就像使用模块让不同模块的作者无需担心彼此全局变量名称(冲突)一样,点模块名称

深度学习框架Keras介绍及实战

Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行.Keras 的开发重点是支持快速的实验.能够以最小的时延把你的想法转换为实验结果,是做好研究的关键. 本文以Kaggle上的项目:IMDB影评情感分析为例,学习如何用Keras搭建一个神经网络,处理实际问题.阅读本文需要对神经网络有基础的了解. 文章分为两个部分: Keras中的一些基本概念.Api用法.我会给出一些简单的使用样例,或是给出相关知识链接.

python学习之——splinter介绍

Splinter是什么: 是一个用 Python 编写的 Web 应用程序进行验收测试的工具. Splinter执行的时候会自动打开你指定的浏览器,访问指定的URL,然后你所开发的模拟的任何行为,都会自动完成, 英文介绍: Splinter is an open source tool for testingweb applications using Python. It lets you automate browser actions, such asvisiting URLs and i

Python学习之路：MINST实战第一版

1.项目介绍: 搭建浅层神经网络完成MNIST数字图像的识别. 2.详细步骤: (1)将二维图像转成一维,MNIST图像大小为28*28,转成一维就是784. (2)定义好神经网络的相关参数: # MNIST数据集相关的常数 INPUT_NODE = 784; OUTPUT_NODE = 10; LAYER1_NODE = 500; BATCH_SIZE = 100; LEARNING_RATE_BASE = 0.8; LEARNING_RATE_DECAY = 0.99; REGULARIZA

Python学习笔记-模块介绍（二）-模块导入和执行

之前的一篇博文介绍了python中模块的概念和基本使用方法,模块作为python语言中的基本单元,可以用来编写公用库函数或对象以便重复使用.同时模块还可以作为独立文件进行运行,之前也已经提到,只要是导入了模块文件,那么PVM就会依次执行模块文件中的所有语句.本篇主要介绍模块使用的一些进阶,首先定义一个模块module_2.py,内容如下: # -*- encoding:utf-8 -*-'''module_2.py模块的内容''' print(__name__) def sum(a,b):ret

python学习笔记一介绍、基本语法、流程控制

1.用户输入 #!/usr/bin/env python #_*_coding:utf-8_*_ #name = raw_input("What is your name?") #only on python 2.x name = input("What is your name?") print("Hello " + name ) 2.输入密码时,如果想要不可见,需要利用getpass 模块中的 getpass方法,即: #!/usr/bin/

python学习之----BeautifulSoup小示例

BeautifulSoup 库最常用的对象恰好就是BeautifulSoup 对象. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj = BeautifulSoup(html.read()) print(bsObj.h1) bsObj.tagname只能获取页面中的

Python学习笔记-模块介绍（一）-模块概念和基本使用

python是由一系列的模块组成的,每个模块就是一个py为后缀的文件,同时模块也是一个命名空间,从而避免了变量名称冲突的问题.模块我们就可以理解为lib库,如果需要使用某个模块中的函数或对象,则要导入这个模块才可以使用,除了系统默认的模块不需要导入外.导入直接使用如下语法: import 模块名称(不要.py后缀) 这样导入成功后,就可以在另外一个模块中使用被导入模块的功能函数或对象了.先举例如下,比如在D:\temp目录下建立python模块:module_1.py,内容如下: # -*- c