爬虫模块BeautifulSoup

中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

1.1 安装BeautifulSoup模块和解析器

1) 安装BeautifulSoup

pip install beautifulsoup4

2) 安装解析器

pip install lxml

　　pip install html5lib

1.2 对象种类

Tag : 标签对象，如：<p class="title"><b>yoyoketang</b></p>，这就是一个标签
NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketang
BeautifulSoup ：就是整个html对象
Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

1.3 常用方法

# coding:utf-8
__author__ = ‘Helen‘
‘‘‘
description:爬虫模块BeautifulSoup学习
‘‘‘
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.baidu.com/")
soup = BeautifulSoup(r.content,‘html5lib‘)
print soup.a	#  根据tab名输出，只输出第一个
print soup.find(‘a‘)	#	同上
print soup.find_all(‘a‘)	# 输出所有a元素
	# 找出对应的tag，再根据元素属性找内容
print soup.find_all(‘a‘,{‘href‘:‘https://www.hao123.com‘,‘name‘:‘tj_trhao123‘})
# .contents(tag对象contents可以获取所有的子节点，返回的是list,获取该元素的直接子节点)
print soup.find(‘a‘).contents[0]	# 输出第一个节点
print soup.find(‘div‘,id=‘u1‘).contents[1]	# 输出第二个节点
# .children(点children这个生成的是list对象，跟上面的点contents功能一样,但是不能通过下标读，只能for循环读)
for i in soup.find(‘div‘,id=‘u1‘).children:
	print i
# .descendants(获取所有的子孙节点)
for i in soup.find(class_=‘head_wrapper‘).descendants:
	print i

时间： 2024-09-30 11:37:47

爬虫模块BeautifulSoup的相关文章

Python 爬虫—— requests BeautifulSoup

本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. requests使用,1直接使用库内提供的get.post等函数,在比简单的情况下使用,2利用session,session能保存cookiees信息,方便的自定义request header,可以进行登陆操作. BeautifulSoup使用,先将requests得到的html生成BeautifulSo

Python_01_IP代理池_实现代理池的爬虫模块的执行方法

目标:根据配置问价内心戏,加载爬虫,抓取代理ip,进行校验,如果可用写入到数据库中思路: 1.在run_spider.py中,创建RunSpider类 2.提供一个运行爬虫的run方法,作为运行爬虫的入口,实现核心的处理逻辑根据配置文件信息,获取爬虫对象列表遍历爬虫对象列表,获取爬虫对象,遍历爬虫对象的get_proxies方法,获取代理ip 检测代理ip 如果可用则写入数据库处理异常,防止一个爬虫内部出错,影响其他爬虫的使用 3.使用异步来执行每一个爬虫任务,以提高抓取代理ip的效率

Python爬虫之BeautifulSoup模块

模块安装 pip3 install beautifulsoup4 模块导入 from bs4 import BeautifulSoup 示例html内容获取html内容代码 import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36

Python爬虫之Beautifulsoup模块的使用

一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip instal

爬虫模块介绍--Beautifulsoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip install beautifulsoup4 #安装

python模块--BeautifulSoup <HTML/XML文档搜索模块>

之前解析字符串都是上正则,导致后来解析HTML/XML也习惯上正则,可是毕竟正则太底层的东西,对于这种有规律的文档,它不是一个好的选择. 后来发现了HTMLParser,感觉比正则好多了,正想深入学习一下,却发现了这个. BeautifulSoup 一比较然后我把以前代码里面的解析HTML/XML的正则全删了,改成BS来解析,所以在此推荐这个HTML/XML文档解析模块,当然它也可以用来修改文档. BeautifulSoup中文文档至于示例和详细说明便不说了,文档写得不错,而且还是中文的.

爬虫必备—BeautifulSoup

BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后便可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单. 1 from bs4 import BeautifulSoup 2 3 html_doc = """ 4 <html><head><title>The Dormouse's story</title></head> 5

python3: 爬虫---- urllib, beautifulsoup

最近晚上学习爬虫,首先从基本的开始: python3 将urllib,urllib2集成到urllib中了, urllib可以对指定的网页进行请求下载, beautifulsoup 可以从杂乱的html代码中分离出我们需要的部分: 注: beautifulsoup 是一种可以从html 或XML文件中提取数据的python库: 实例1: from urllib import request from bs4 import BeautifulSoup as bs import re head

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: utf-8 -*- """ Created on Wed Jul 18 21:41:34 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ """ import requests