Python使用asyncio+aiohttp异步爬取猫眼电影专业版

asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档

并发访问能极大的提高爬虫的性能,但是requests访问网页是阻塞的,无法并发,所以我们需要一个更牛逼的库 aiohttp ,它的用法与requests相似,可以看成是异步版的requests,下面通过实战爬取猫眼电影专业版来熟悉它们的使用:

1. 分析

分析网页源代码发现猫眼专业版是一个动态网页,其中的数据都是后台传送的,打开F12调试工具,再刷新网页选择XHR后发现第一条就是后台发来的电影数据,由此得到接口 https://box.maoyan.com/promovie/api/box/second.json?beginDate=日期

在这里插入图片描述


2. 异步爬取

创建20个任务来并发爬取20天的电影信息并写入csv文件,同时计算一下耗费的时间


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

import asyncio

from aiohttp import ClientSession

import aiohttp

import time

import csv

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

headers = {‘User-Agent‘‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) ‘

                             ‘AppleWebKit/537.36 (KHTML, like Gecko) ‘

                             ‘Chrome/67.0.3396.99 Safari/537.36‘}

# 协程函数,完成一个无阻塞的任务

async def get_one_page(url):

    try:

        conn = aiohttp.TCPConnector(verify_ssl=False)  # 防止ssl报错

        async with aiohttp.ClientSession(connector=conn) as session:  # 创建session

            async with session.get(url, headers=headers) as r:

                # 返回解析为字典的电影数据

                return  await r.json()

    except Exception as e:

        print(‘请求异常: ‘ + str(e))

        return {}

# 解析函数,提取每一条内容并写入csv文件

def parse_one_page(movie_dict, writer):

    try:

        movie_list = movie_dict[‘data‘][‘list‘]

        for movie in movie_list:

            movie_name = movie[‘movieName‘]

            release = movie[‘releaseInfo‘]

            sum_box = movie[‘sumBoxInfo‘]

            box_info = movie[‘boxInfo‘]

            box_rate = movie[‘boxRate‘]

            show_info = movie[‘showInfo‘]

            show_rate = movie[‘showRate‘]

            avg_show_view = movie[‘avgShowView‘]

            avg_seat_view = movie[‘avgSeatView‘]

            writer.writerow([movie_name, release, sum_box, box_info, box_rate,

                            show_info, show_rate, avg_show_view, avg_seat_view])

        return(‘写入成功‘)

    except Exception as e:

        return(‘解析异常: ‘ + str(e))

# 并发爬取

async def main():

    # 待访问的20个URL链接

    urls = [‘https://box.maoyan.com/promovie/api/box/second.json?beginDate=201904{}{}‘.format(i, j) for in range(1, 3) for in range(10)]

    # 任务列表

    tasks = [get_one_page(url) for url in urls]

    # 并发执行并保存每一个任务的返回结果

    results = await asyncio.gather(*tasks)

    # 处理每一个结果

    with open(‘pro_info.csv‘‘w‘as f:

        writer = csv.writer(f)

        for result in results:

            print(parse_one_page(result, writer))

if __name__ == "__main__":

    

    start = time.time()

    

    # asyncio.run(main())

    # python3.7之前的写法

    loop = asyncio.get_event_loop()

    loop.run_until_complete(main())

    loop.close()

    

    print(time.time()-start)

  

 

3. 对比同步爬取

import requests
import csv
import time

headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) ‘
                             ‘AppleWebKit/537.36 (KHTML, like Gecko) ‘
                             ‘Chrome/67.0.3396.99 Safari/537.36‘}

def get_one_page(url):

    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.json()
    except Exception as e:
        print(‘请求异常: ‘ + e)
        return {}

def parse_one_page(movie_dict, writer):
    try:
        movie_list = movie_dict[‘data‘][‘list‘]
        for movie in movie_list:
            movie_name = movie[‘movieName‘]
            release = movie[‘releaseInfo‘]
            sum_box = movie[‘sumBoxInfo‘]
            box_info = movie[‘boxInfo‘]
            box_rate = movie[‘boxRate‘]
            show_info = movie[‘showInfo‘]
            show_rate = movie[‘showRate‘]
            avg_show_view = movie[‘avgShowView‘]
            avg_seat_view = movie[‘avgSeatView‘]
            writer.writerow([movie_name, release, sum_box, box_info, box_rate,
                            show_info, show_rate, avg_show_view, avg_seat_view])
        print(‘写入成功‘)
    except Exception as e:
        print(‘解析异常: ‘ + e)

def main():

    # 待访问的20个URL链接
    urls = [‘https://box.maoyan.com/promovie/api/box/second.json?beginDate=201903{}{}‘.format(i, j) for i in range(1, 3) for j in  range(10)]
    with open(‘out/pro_info.csv‘, ‘w‘) as f:
        writer = csv.writer(f)
        for url in urls:
            # 逐一处理
            movie_dict = get_one_page(url)
            parse_one_page(movie_dict, writer)

if __name__ == ‘__main__‘:
    a = time.time()
    main()
    print(time.time() - a)

在这里插入图片描述



可以看到使用asyncio+aiohttp的异步爬取方式要比简单的requests同步爬取快上不少,尤其是爬取大量网页的时候,这种差距会非常明显。

原文地址:https://www.cnblogs.com/huhuxixi/p/10838500.html

时间: 2024-10-03 17:29:11

Python使用asyncio+aiohttp异步爬取猫眼电影专业版的相关文章

python爬取猫眼电影top100排行榜

爬取猫眼电影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取内容: 电影名称,主演, 上映时间,图片url地址保存到mariadb数据库中;2). 所有的图片保存到本地/mnt/maoyan/电影名.png 代码: import re import pymysql as mysql from urllib import request from urllib.request import urlopen u = 'root' p = 'root'

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.com/board/4?offset=0 翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面 代码君 css选择器直接选择和使用find()方法的区别:find()用于选择子节点,因此限定了选择的区域,速度可能要快些,直接传入''选择器可能

爬取猫眼电影

爬去猫眼电影正字热映电影榜单的前五页: #爬取猫眼电影正在热映前5面的所有电影 import requests from requests import RequestException import re def get_one_page(url): header ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.8

14-Requests+正则表达式爬取猫眼电影

'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析得到电影的名称.主演.上映时间.评分.图片链接等信息.保存至文件:通过文件的形式保存结果,每一部电影一个结果一行Json字符串.开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度.'''import requestsimport refrom requests.exceptions impor

使用xpath爬取猫眼电影排行榜

最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法. 说实话,对于网页信息的匹配,还是推荐用xpath,虽然正则确实也能达到效果,但是语句过于繁琐,一不注意就匹配不出东西,特别对于新手,本身就不熟悉正则表达式,错了都找不出来,容易劝退.正则我一般用于在处理文件,简直神器. 下面贴代码. import req

scrapy爬取猫眼电影排行榜

做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电影的程序,环境配置和scrapy安装略过 第一步肯定是终端运行创建爬虫项目和文件 1 # 创建爬虫项目 2 scrapy startproject Maoyan 3 cd Maoyan 4 # 创建爬虫文件 5 scrapy genspider maoyan maoyan.com 然后在产生的ite

正则表达式爬取猫眼电影

正则表达式爬取猫眼电影Top100 import requests import re,json from multiprocessing import Pool def get_one_page(url): response = requests.get(url) return response.text def parse_one_page(html): pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?dat

爬虫实战01——爬取猫眼电影top100榜单

#需求:抓取猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的结果会以文件的形式保存下来 import requests import time from lxml import etree import json import csv import codecs class MaoYanTop100Spider: #存储电影详情页的url film_page_url_list = [] #存储每个的电影信息 #film_info = {} film_info_list = [] #

python爬取猫眼电影top100

最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面 分了10页,url为:https://maoyan.com/board/4?offset=0 我们发起请求,得到相应: 我们 我使用的是requests库,这是一个第三方的库. 2 利用正则解析爬取下的页面 当然你也可以使用xpath和bs4. 我们先看一下网页的源代码: 然后根据代码写出要匹配的正则,然后对匹配出来的数据做解析: 3 将抓到的数据写入本地文件