Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜

 1 #抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表
 2 import requests
 3 import re
 4 from  requests.auth import HTTPBasicAuth
 5
 6 #定义爬虫工具类
 7 class SpiderTools():
 8     def __init__(self):
 9         super(SpiderTools, self).__init__()
10     #抓取首页信息
11     def load_onePage(self,url):
12         self.headers={
13             ‘Host‘:‘maoyan.com‘,
14             ‘Accept‘:‘text / html, application / xhtml + xml, * / *‘,
15             ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0‘
16         }
17         res=requests.get(url,headers=self.headers)
18         #print(res.text)
19         #解析获取电影名称排行，名称，图片地址，主演，上映时间
20         pattern=re.compile(‘<dd>.*?board-index.*?>(.*?)</i>.*?<p class="name".*?><a.*?>(.*?)</a>.*?<img data-src="(.*?)".*?>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>‘,re.S)
21         result=re.findall(pattern,res.text)
22         #将数据创建字典
23         #print(result0)
24         items=[]
25         for i in result:
26             dict={
27               "order":i[0],
28               "name":i[1],
29               "imageURL":i[2],
30               "auth":i[3].strip(),#strip去掉前后换行符合空格
31               "time":i[4]
32             }
33             items.append(dict)
34         return items
35
36
37
38 if __name__=="__main__":
39     spider=SpiderTools()
40     i=0
41     while True:
42         items = spider.load_onePage(‘https://maoyan.com/board/4?offset=%d‘%(i))
43         i=i+10
44         if not len(items):
45             break;
46         print(i,items)

原文地址：https://www.cnblogs.com/ygzhaof/p/10192030.html

时间： 2024-08-30 09:51:49

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜的相关文章

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 测试了下这里需要自己添加头部否则得不到网页 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge

python学习之抓取猫眼电影Top100榜单

目录 1 本篇目标 2 url分析 3 页面抓取 4 页面分析 5 代码整合 6 优化参考: 近期开始学习python爬虫,熟悉了基本库.解析库之后,决定做个小Demo来实践下,检验学习成果. 1 本篇目标抓取猫眼电影总排行榜Top100电影单根据电影演员表统计演员上榜次数 2 url分析目标站点为https://maoyan.com/board/4,打开之后就可以看到排行榜信息,如图所示页面上显示10部电影,有名次.影片名称.演员信息等信息.当拉到最下面点击第二页的时候,发现url变

Python爬虫--2019大学排名数据抓取

Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结构中利用数据结构展示并输出结果程序设计定义函数getHTMLText()获取网页信息定义函数UnivList()放入数据结构定义函数printUnivList()输出到屏幕总体而言: 写出需要自定义的函数,制作出总体的框架写出主函数框架,实现功能最后调用函数步骤查看url源代码

00_抓取猫眼电影排行TOP100

前言: 学习python3爬虫大概有一周的时间,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容. 1.本次目标: 需要爬去出猫眼电影排行TOP100的电影相关信息,包括:名称.图片.演员.时间.评分,排名.提取站点的URL为http://maoyan.com/board/4,提取的结果以文本形式保存下来. 2.准备工作只需要安装好requests库即可. 安装方式有很多种,这里只简单的介绍一下通过pip这个包管理工具

用pyquery 初步改写崔庆才的抓取猫眼电影排行（正在更新）特意置顶，提醒自己更新

目前正在学Python爬虫,正在读崔庆才的<Python3网络爬虫开发实战>,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪....),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况) import requests from pyquery import PyQuery as pq def get_one_page(url): headers

爬虫实战01——爬取猫眼电影top100榜单

#需求:抓取猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的结果会以文件的形式保存下来 import requests import time from lxml import etree import json import csv import codecs class MaoYanTop100Spider: #存储电影详情页的url film_page_url_list = [] #存储每个的电影信息 #film_info = {} film_info_list = [] #

Python爬虫成长之路：抓取证券之星的股票数据

获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所有A股数据.程序主要分为三个部分:网页源码的获取.所需内容的提取.所得结果的整理. 一.网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手.只需以下几行代码既可抓取大部分网页的源码. import urllib.request url='http://quote.stockstar

python爬虫14--Selenium动态渲染页面抓取

1.声明浏览器对象 from selenium import webdriver browser = webdriver.Chrome() # browser = webdriver.Firefox() # browser = webdriver.Edge() 2.访问页面 from selenium import webdriver browser = webdriver.Chrome() url = 'http://www.baidu.com' browser.get(url) print(

使用requests爬取猫眼电影TOP100榜单

Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用requests库对猫眼电影的TOP100榜进行抓取. 1 获得页面. 首先确定要爬取的url为http://maoyan.com/board/4,通过requests模块,打印出页面的信息 def get_a_page(url): try: response = requests.get(url) if respon