多线程抓获猫眼Top100电影信息

import requestsimport parselimport timeimport threading

# 模拟浏览器headers = {"Referer": "https://maoyan.com/board/4?offset=0",           "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \            Chrome/80.0.3987.116 Safari/537.36"}

# 定义获取方法def get_info(page):    # 获得信息页面    url = "https://maoyan.com/board/4?offset={}".format(page)

    response = requests.get(url, headers=headers)    # print(response.text)    # 读取页面内容    sel = parsel.Selector(response.text)    # print(sel.re(‘<p class="releasetime">(.*?)</p>‘))    # print(sel.xpath(‘//p[@class="releasetime"]/text()‘).getall())    # 整理信息    dds = sel.css("dd")    for dd in dds:        print({            "电影名称": dd.css(‘p.name a::text‘).getall()[0],            "主演": dd.css(‘p.star::text‘).getall()[0].strip(),            "上映时间": dd.css(‘p.releasetime::text‘).getall()[0],            "评分": "".join(dd.css(‘p.score i::text‘).getall())        })        # print("*" * 100)

star_time = time.time()

# 构造URL 请求10页的数据for page in range(0, 100, 10):    # 创建线程对象    t1 = threading.Thread(target=get_info, args=(page,))    # 启动线程    t1.start()    # get_info(page)

# 打印线程数print("总线程数:", threading.enumerate())while len(threading.enumerate()) > 1:    passprint("总用时:", time.time()-star_time, "s", sep=" ")

原文地址:https://www.cnblogs.com/panda009079/p/12348284.html

时间: 2024-10-09 05:38:18

多线程抓获猫眼Top100电影信息的相关文章

requests+re(正则)之猫眼top100排名信息爬取

这篇博客介绍怎么爬取猫眼top100的排名,网址,评分等.使用的是爬虫技术最基础的requests请求加re(正则)提取. 有时候我们看电影会不知道看什么电影比较好,一般打开电影排名,还得一下下的点击到电影排行页面.所以就有了这个爬虫,直接就能得到猫眼的电影排名和他的网址,岂不乐哉. 我们先打开到猫眼的top100页面:https://maoyan.com/board/4? 然后点击到第二页:https://maoyan.com/board/4?offset=10 点击第三页:https://m

Requests+正则表达式爬取猫眼TOP100电影

需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法 import requests from requests.exceptions import RequestException import re import json from multiprocessing import Pool # 抓取单页内容 def get_one_page(url): try: response = requests.

Python3爬取电影信息:调用API

实验室这段时间要采集电影的信息,给出了一个很大的数据集,数据集包含了4000多个电影名,需要我写一个爬虫来爬取电影名对应的电影信息. 其实在实际运作中,根本就不需要爬虫,只需要一点简单的Python基础就可以了. 前置需求: Python3语法基础 HTTP网络基础 =================================== 第一步,确定API的提供方.IMDb是最大的电影数据库,与其相对的,有一个OMDb的网站提供了API供使用.这家网站的API非常友好,易于使用. http://

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习.        总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析 豆瓣Top250电影网址:https://movie.douban.com/top2

003.[python学习] 简单抓取豆瓣网电影信息程序

声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 5 import sys 6 reload(sys) 7 sys.setdefaultencoding('utf-8') #解决编码问题 8 9 10 """一个简单的从豆瓣网获取电

1-1 用Python抓取豆瓣及IMDB上的电影信息

下面的代码可以抓取豆瓣及IMDB上的电影信息,由于每段代码使用的数据源自上一段代码输出的数据,所以需要按顺序执行. step1_getDoubanMovies.py 1 # -*- coding: utf-8 -*- 2 ''' 3 该脚本得到豆瓣上所有电影的如下信息: 4 "rate": "7.5", 5 "cover_x": 2000, 6 "is_beetle_subject": false, 7 "title

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

到豆瓣爬取电影信息

初学puthon爬虫,于是自己怕了豆瓣以电影信息,直接上源码 import re import requests from bs4 import BeautifulSoup import urllib import os class movie: def __init__(self): self.url="https://movie.douban.com/subject/25933890/?tag=%E7%83%AD%E9%97%A8&from=gaia_video" self

Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计

一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分析如下所示: 图1-1  数据分析主界面 图1-2  OneR数据分析界面 图1-3  ZeroR数据分析界面 图1-4 Visualize数据分析界面 二.数据分析结论:(将数据之间的关系用文字性描述) 如图2-1所示,显而易见,电影类型的趋势增量随着标题的繁杂而日益增长,仅对于整个国家层次来说,