00_抓取猫眼电影排行TOP100

前言：

学习python3爬虫大概有一周的时间，熟悉了爬虫的一些基本原理和基本库的使用，本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容。

1、本次目标：

需要爬去出猫眼电影排行TOP100的电影相关信息，包括：名称、图片、演员、时间、评分，排名。提取站点的URL为http://maoyan.com/board/4，提取的结果以文本形式保存下来。

2、准备工作

只需要安装好requests库即可。

安装方式有很多种，这里只简单的介绍一下通过pip这个包管理工具来安装。

在命令行界面中输入pip3 install requests即可完成安装。（无论是windows、linux、还是mac，都可以使用该方式）

完成之后可以导入requests模块进行测试：

>python
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:04:45) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>>

如果没有错误提示，就证明已经成功安装了。

3、抓取分析

首先进入目标站点http://maoyan.com/board/4，可以看到有电影的排名、演员、时间、评分等信息，翻到页面底部可以发现，每个页面有10部电影，点击下一页可看到站点的URL变为了http://maoyan.com/board/4?offset=10，里面是排名11-20的电影。也就是说要获取TOP100的电影信息，只需要请求offset=0,10,20...90的页面，然后再利用正则表达式爬取每一页所需要的电影信息即可。

原文地址：https://www.cnblogs.com/knowing/p/9900879.html

时间： 2024-09-29 01:35:45

00_抓取猫眼电影排行TOP100的相关文章

用pyquery 初步改写崔庆才的抓取猫眼电影排行（正在更新）特意置顶，提醒自己更新

目前正在学Python爬虫,正在读崔庆才的<Python3网络爬虫开发实战>,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪....),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况) import requests from pyquery import PyQuery as pq def get_one_page(url): headers

python学习之抓取猫眼电影Top100榜单

目录 1 本篇目标 2 url分析 3 页面抓取 4 页面分析 5 代码整合 6 优化参考: 近期开始学习python爬虫,熟悉了基本库.解析库之后,决定做个小Demo来实践下,检验学习成果. 1 本篇目标抓取猫眼电影总排行榜Top100电影单根据电影演员表统计演员上榜次数 2 url分析目标站点为https://maoyan.com/board/4,打开之后就可以看到排行榜信息,如图所示页面上显示10部电影,有名次.影片名称.演员信息等信息.当拉到最下面点击第二页的时候,发现url变

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜

1 #抓取猫眼电影,https://maoyan.com/board/4 榜单电影列表 2 import requests 3 import re 4 from requests.auth import HTTPBasicAuth 5 6 #定义爬虫工具类 7 class SpiderTools(): 8 def __init__(self): 9 super(SpiderTools, self).__init__() 10 #抓取首页信息 11 def load_onePage(self,ur

Python3编写网络爬虫04-爬取猫眼电影排行实例

利用requests库和正则表达式抓取猫眼电影TOP100 (requests比urllib使用更方便,由于没有学习HTML系统解析库选用re) 1.目标抓取电影名称时间评分图片等 url http://maoyan.com/board/4 结果以文件形式保存 2.分析 offset 代表偏移量如果为n 电影序号为n+1~n+10 每页显示10个获取100 分开请求10次 offset 分别为0 10 20...90 利用正则提取相关信息 3.抓取页面 import reques

python爬取猫眼电影的Top100

1 查看网页结构 (1)确定需要抓取的字段电影名称电影主演电影上映时间电影评分 (2) 分析页面结构按住f12------->点击右上角(如下图2)---->鼠标点击需要观察的字段 (3)BeautifulSoup解析源代码并设置过滤属性 1 soup = BeautifulSoup(htmll, 'lxml') 2 Movie_name = soup.find_all('div',class_='movie-item-info') 3 Movie_Score1=soup.find_

抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法

import requests import re import json import time from bs4 import BeautifulSoup from pyquery import PyQuery as pq from lxml import etree # 获取页面源码 def get_one_page(url): try: headers = { # 伪装请求头 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10

Python冒充其他浏览器抓取猫眼电影数据(绕过反爬虫)

原文地址:http://blog.51cto.com/2290153/2127855

爬虫实战01——爬取猫眼电影top100榜单

#需求:抓取猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的结果会以文件的形式保存下来 import requests import time from lxml import etree import json import csv import codecs class MaoYanTop100Spider: #存储电影详情页的url film_page_url_list = [] #存储每个的电影信息 #film_info = {} film_info_list = [] #

使用requests爬取猫眼电影TOP100榜单

Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用requests库对猫眼电影的TOP100榜进行抓取. 1 获得页面. 首先确定要爬取的url为http://maoyan.com/board/4,通过requests模块,打印出页面的信息 def get_a_page(url): try: response = requests.get(url) if respon