异步爬虫方式
目的:在爬虫中使用异步实现高性能的数据爬取操作
异步爬虫方式:
- 多进程,多线程(不建议)
好处:可以为先关阻塞操作单独开启进程或者线程,阻塞操作就可以异步执行
坏处:无法无限制开启
- 线程池,进程池(适当使用)
好处:可以降低系统对进程或者线程创建和销毁的评率,进而降低系统开销
坏处:池中线程或进程的数量有上线
- 单线程+异步协程(推荐)
event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,
当满足某些条件的时候,函数就会被循环执行。coroutine:协程对象,我们可以将协程对象注册到事件循环中,它会被事件循环调用。 我们可以使用 async 关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回 一个协程对象。 task:任务,它是对协程对象的进一步封装,包含了任务的各个状态。 future:代表将来执行或还没有执行的任务,实际上和 task 没有本质区别。 async 定义一个协程. await 用来挂起阻塞方法的执行。
线程池基本使用
#使用线程池方式执行
import time
from multiprocessing.dummy import Pool
def get_page(str):
print("正在下载 :",str)
time.sleep(2)
print('下载成功:',str)
start_time = time.time()
name_list =['xiaozi','aa','bb','cc']
#实例化一个线程池对象
pool = Pool(4)
#将列表中每一个列表元素传递给get_page进行处理。
pool.map(get_page,name_list)
pool.close()
pool.join()
print(time.time()-start_time)
线程池实现:爬取梨视频
import requests, re
from lxml import etree
from multiprocessing.dummy import Pool
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36"
}
url = "https://www.pearvideo.com/category_4"
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="listvideoListUl"]/li')
video_urls_list = []
for li in li_list:
detail_url = 'https://www.pearvideo.com/' + li.xpath('./div/a/@href')[0]
detail_page_text = requests.get(url=detail_url, headers=headers).text
tree = etree.HTML(detail_page_text)
video_name = tree.xpath('//*[@id="poster"]/img/@alt')[0] + ".mp4"
# js动态加载,只能使用正则解析video_url
ex = 'srcUrl="(.*?)",vdoUrl'
video_url = re.findall(ex, detail_page_text)[0]
video_info = {
"name": video_name,
"url": video_url
}
video_urls_list.append(video_info)
def get_video_data(dic):
url = dic["url"]
name = dic["name"]
print(name, "正在下载...")
video_data = requests.get(url=url, headers=headers).content
with open(name, "wb") as fp:
fp.write(video_data)
print(name, "正在成功")
pool = Pool(4)
pool.map(get_video_data, video_urls_list)
pool.close()
pool.join()
协程的基本使用
单任务协程使用
import asyncio
async def request(url):
print('正在请求的url是',url)
print('请求成功,',url)
return url
#async修饰的函数,调用之后返回的一个协程对象
c = request('www.baidu.com')
# # 创建一个事件循环对象
# loop = asyncio.get_event_loop()
# # 将协程对象注册到事件循环对象,即loop中
# # 此步骤既注册,又启动了事件循环
# loop.run_until_complete(c)
# task的使用 task是对协程对象的进一步封装
# loop = asyncio.get_event_loop()
# task = loop.create_task(c)
# print(task)
# loop.run_until_complete(task)
# print(task)
# future的使用 future也是协程对象的进一步封装 与task无本质区别
# loop = asyncio.get_event_loop()
# task = asyncio.ensure_future(c)
# print(task)
# loop.run_until_complete(task)
# print(task)
# 绑定回调
def callback_fun(task):
# result返回的就是任务对象中封装的协程对象对应函数的返回值
print(task.result())
loop = asyncio.get_event_loop()
task = asyncio.ensure_future(c)
# 任务对象执行前绑定回调函数
task.add_done_callback(callback_fun)
# 执行任务对象
loop.run_until_complete(task)
多任务协程使用
多任务:任务列表注册使用wait
:loop.run_until_complete(asyncio.wait(tasks))
requests.get是基于同步的请求,必须使用基于异步的网络请求模块进行制定url的请求发送
aiohttp: 基于异步网络请求的模块
# 使用Flask模拟服务器
import asyncio
import requests
import time
start = time.time()
urls = [
'http://127.0.0.1:5000/bobo',
'http://127.0.0.1:5000/jay',
'http://127.0.0.1:5000/tom',
]
async def get_page(url):
print('正在下载', url)
#requests.get是基于同步的请求,必须使用基于异步的网络请求模块进行制定url的请求发送
#aiohttp: 基于异步网络请求的模块
response = requests.get(url=url)
print('下载完毕', response.text)
# 将任务添加到任务列表
tasks = [asyncio.ensure_future(get_page(url)) for url in urls]
#将任务列表注册到事件循环对象
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print('总耗时:', time.time()-start)
多任务异步协程使用
使用模块 aiohttp
获取响应数据操作之前一定要使用await进行手动挂起 await
# 环境安装:pip install aiohttp
# 使用该模块中的ClientSession
import requests
import asyncio
import time
import aiohttp
async def get_page(url):
async with aiohttp.ClientSession() as session:
# get()、post():
# headers,关键字传参
# params/data,
# proxy='http://ip:port',不在是字典
async with await session.get(url) as response:
# text()返回字符串形式的响应数据
# read()返回的二进制形式的响应数据
# json()返回的就是json对象
# 注意:获取响应数据操作之前一定要使用await进行手动挂起
page_text = await response.text()
print(page_text)
start = time.time()
urls = ['http://127.0.0.1:5000/bobo' for i in range(10)]
tasks = [asyncio.ensure_future(get_page(url)) for url in urls]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print('总耗时:', time.time()-start)
实战:爬取4k美女图片
知识点:xpath数据解析、多任务异步协程爬取、函数封装
import requests
from lxml import etree
import time, os
import asyncio
import aiohttp
start = time.time()
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36"
}
if not os.path.exists('./libs'):
os.mkdir('./libs')
def get_img_info(page_url, pic_info_list):
"""
获取图片信息
:param page_url: 页面url
:param pic_info_list: 把图片url和图片名以字典的形式存放在pic_info_list列表中
:return:
"""
url = page_url
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="slist"]/ul/li')
for li in li_list:
img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
name = li.xpath('./a/img/@alt')[0].encode('iso-8859-1').decode('gbk')
pic_info_list.append({"url": img_src, "name": name})
# 同步爬取
# data = requests.get(url=img_src).content
# path = './libs/'+name
# with open(path,'wb') as fp:
# fp.write(data)
# print(name,'下载成功')
# 一下是异步爬取的代码
async def down_img(dic):
"""
多任务异步协程下载图片
:param dic:
:return:
"""
img_url = dic["url"]
img_name = dic["name"]
async with aiohttp.ClientSession() as session:
async with await session.get(url=img_url, headers=headers) as response:
img_data = await response.read()
with open(f"libs/{img_name}.jpg", "wb") as fp:
fp.write(img_data)
print(f"{img_name}, 下载成功!!!")
url1 = 'http://pic.netbian.com/4kmeinv/index.html'
url2 = 'http://pic.netbian.com/4kmeinv/index_%d.html'
pic_info_list = []
# 第一页图片
get_img_info(url1, pic_info_list)
# 第2-4页图片
for page in range(2,5):
new_url = format(url2 % page)
get_img_info(new_url, pic_info_list)
# 多任务异步协程启动
tasks = [asyncio.ensure_future(down_img(dic)) for dic in pic_info_list]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
print('总耗时:', time.time()-start)
原文地址:https://www.cnblogs.com/liuxu2019/p/12112692.html
时间: 2024-10-31 02:35:47