最简单的豆瓣电影排行爬虫 萌新都可以看懂

1.获取都判电影排行榜请求地址:

上图中url中的 type是爱情片对应的type编码,start=0,limite=1,表示排行显示从第一条开始且只显示一条排行内容

一条电影item的内容如下:

rating : [‘9.2‘, ‘50‘]
rank : 3
cover_url : https://img3.doubanio.com/view/photo/s_ratio_poster/public/p647099823.jpg
is_playable : True
id : 1295399
types : [‘动作‘, ‘冒险‘, ‘剧情‘]
regions : [‘日本‘]
title : 七武士
url : https://movie.douban.com/subject/1295399/
release_date : 1954-04-26
actor_count : 20
vote_count : 106162
score : 9.2
actors : [‘三船敏郎‘, ‘志村乔‘, ‘稻叶义男‘, ‘宫口精二‘, ‘千秋实‘, ‘加东大介‘, ‘木村功‘, ‘本间文子‘, ‘小杉义男‘, ‘高木新 平‘, ‘中岛春雄‘, ‘小川虎之助‘, ‘东野英治郎‘, ‘土屋嘉男‘, ‘高堂国典‘, ‘津岛惠子‘, ‘藤原釜足‘, ‘仲代达矢‘, ‘左卜全‘, ‘马野都留子‘]
is_watched : False

2.根据1中的url直接编写get请求,用到了requests库和json库,直接上代码:

import requests
import json
#豆瓣电影类型对应的编码
type_dict={
    "剧情":11,
    "喜剧":24,
    "动作":5,
    "爱情":13,
    "科幻":17,
    "动画":25,
    "悬疑":10,
    "惊悚":19,
    "纪录片":1,
    "短片":23,
    "情色":6,
    "同性":26,
    "音乐":14,
    "歌舞":7,
    "家庭":28,
    "儿童":8,
    "传记":2,
    "历史":4,
    "战争":22,
    "犯罪":3,
    "西部":27,
    "奇幻":16,
    "冒险":15,
    "灾难":12,
    "武侠":29,
    "古装":30,
    "运动":18,
    "黑色电影":31
}
#默认显示100排名
def get_ranking(type_num,size=100):
    r= requests.get("https://movie.douban.com/j/chart/top_list?type={}&interval_id=100%3A90&action=&start=0&limit={}".format(type_num,size))
    html = r.text    #返回的内容直接是json形式的字符串,用json库进行解析
    print(r.status_code)
    #直接用json解析
    result=json.loads(html)
    for i in range(len(result)):
        movie_item=result[i]
        print("rank:",movie_item["rank"],"    电影名字:",movie_item["title"])

i=""
while(i!="q"):
    i=input("请输入查看排行的电影类型(按q退出):")
    print("查看的电影为:",i," type_num:",type_dict[i])
    get_ranking(type_dict[i])
    print("---------------------------------------")

3.查询显示结果如下:

原文地址:https://www.cnblogs.com/chen-jack/p/11071049.html

时间: 2024-08-01 21:44:20

最简单的豆瓣电影排行爬虫 萌新都可以看懂的相关文章

豆瓣电影搜索爬虫程序,爬虫小程序,适合初学者

最近在学python,之前用Python写过简单的图片爬取,今天想着用python爬一下豆瓣的电影,就有了下面的程序: #coding:utf-8 #coding:utf-8 import re import sys import urllib from bs4 import BeautifulSoup def movieSearch(): <span style="white-space:pre"> </span>douBanSearchurl = "

爬取豆瓣电影排行top250

功能描述: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验室: """ 作者:李舵 日期:2019-4-27 功能:抓取豆瓣电影top250 版本:V1.0 """ import time import json import requests from bs4 import BeautifulSoup from requests.exceptions i

豆瓣电影小爬虫

很早前就想用 Golang 写点"实用的"东西,兴趣不是目的,学总归要致用.而<Go语言圣经>中有一些例子比较有实际意义,譬如爬虫. 刚好我对电影还比较有兴趣,且习惯性地在下或看某部电影前都会去豆瓣看看评分,所以我想,何不撸个小爬虫,来遍历豆瓣的所有电影页面以采集电影信息并按评分由高到低来排个序看看有哪些高评分电影我还没看过呢? 趁自己不瞎忙,索性撸起来. 代码实现基本上还是参考圣经里的那套.而作为爬虫,自然免不了要引入 goquery 这样的三方库,只是我还不熟 jQue

用Scrapy爬虫爬取豆瓣电影排行榜数据,存储到Mongodb数据库

爬虫第一步:新建项目 选择合适的位置,执行命令:scrapy startproje xxxx(我的项目名:douban) 爬虫第二步:明确目标 豆瓣电影排行url:https://movie.douban.com/top250?start=0, 分析url后发现srart=后面的数字,以25的步长递增,最大为225,所以可以利用这个条件来发Request请求 本文只取了三个字段,电影名.评分和介绍,当然你想去更多信息也是可以的 item["name"]:电影名 item["r

练习:一只豆瓣电影TOP250的爬虫

练习:一只豆瓣电影TOP250爬虫 练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapy class DoubanmovieItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() rank = scrapy.Field() title = scrapy.Field() link = scrapy.Field() rate

【Python】从0开始写爬虫——豆瓣电影

1. 最近略忙..java在搞soap,之前是用工具自动生成代码的.最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫.扒信息的部分暂时先做到这了.扒到的信息如下 from scrapy import app import re header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safar

Scala学习之爬豆瓣电影

简单使用Scala和Jsoup对豆瓣电影进行爬虫,技术比较简单易学. 写文章不易,欢迎大家采我的文章,以及给出有用的评论,当然大家也可以关注一下我的github:多谢: 1.爬虫前期准备 找好需要抓取的链接:https://movie.douban.com/tag/%E7%BB%8F%E5%85%B8?start=20&type=T 观看该链接的源码,找到需要进行解析的地方如本实例:图中标明了需要提取的字段. 下载Jsoup的jar包文件:https://jsoup.org/download 建

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top250 1)确定目标网站的请求头: 打开目标网站,在网页空白处点击鼠标右键,选择"检查".(小编使用的是谷歌浏览器). 点击"network",在弹出页面若长时间没有数据显示,则试一下F5刷新. 可以得到目标网页中Host和User-Agent两项. 2)找到爬取目标数据(即电影名称)在页面中的位置 右键"检查",选择"Elem

Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶)

Python 2.7 IDE Pycharm 5.0.3 具体Selenium及PhantomJS请看Python+Selenium+PIL+Tesseract真正自动识别验证码进行一键登录 一些自动化应用实例请看Selenium+PhantomJS自动续借图书馆书籍 至于GUI的入门使用请看Python基于Tkinter的二输入规则器(乞丐版) 比较综合的GUI例子请看基于Python的参考文献生成器1.0 想了想,还是稍微人性化一点,做个成品GUI出来 起因 没办法,在知乎预告了要做个GUI