python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

写了两个版本:

1、面向过程版本：

import requests
from pyquery import PyQuery as pq
url=‘https://movie.douban.com/top250‘
moves=[]
def sec(item):
    return item[1]
for i in range(0,255,25):
    content=requests.get(url+"?start="+str(i))#?start=25
    for  movie in pq(content.text).find(‘.item‘):
        moves.append([pq(movie).find(‘.title‘).html(),pq(movie).find(‘.rating_num‘).html()])
moves.sort(key=sec,reverse=True)
for move in moves:
    print(move[0],move[1])

2、面向对象版本：

import requests
from pyquery import PyQuery as pq

class Douban:
    def __init__(self):
        self.moves=[]
    def geturl(self):
        url=‘https://movie.douban.com/top250?start=%s‘
        urls=[]
        for i in range(0,250,25):
            urls.append(url%i)
        return urls
    def downloader(self,url):
        r=requests.get(url)
        return r.text
    def html_parser(self,page):
        for movie in pq(page).find(‘.item‘):
            title=pq(movie).find(‘.title‘).html()
            score=pq(movie).find(‘.rating_num‘).html()
            self.moves.append({
                    ‘title‘:title,
                    ‘score‘:score,
                    })
    def output(self):
        self.moves.sort(key=lambda x:x[‘score‘],reverse=True)
        for move in self.moves:
            print(move[‘title‘],move[‘score‘])
    def start(self):
        for url in self.geturl():
            #print(url)
            page=self.downloader(url)
            self.html_parser(page)
        self.output()
dou=Douban()
dou.start()

原文地址：https://www.cnblogs.com/babihuang/p/9085867.html

时间： 2024-10-30 09:54:08

python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)的相关文章

Python爬虫爬取豆瓣读书

最近用Python写了个豆瓣读书的爬虫玩,方便搜罗各种美美书,分享给大家实现功能: 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍:可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封试着爬了七八万本书,存在了book_list.xlsx中,结果截图如下: 详细代码和爬取的一些结果可移步到GitHub

Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库

前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf-8 -*- import urllibimport urllib2import sysimport reimport sslimport openpyxlimport MySQLdbimport time #from bs4 import BeautifulSoup #修改系统默认编码为utf-8

python爬虫--爬取豆瓣top250电影名

关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

用Python爬虫爬取广州大学教务系统的成绩（内网访问）

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存爬取博客园指定用户的文章修饰后全部保存到本地首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中的内容带有相