【Python3 爬虫】U09_爬取hao6v电影网

1.需求描述
2.实现代码

1.需求描述

爬取hao6v电影网的数据，先通过xpath解析第一个页面，获取到每部电影的url详情页地址，然后解析详情页地址，获取出所需的数据

页面如下：

2.实现代码

# Author:Logan

import requests
from lxml import etree

HEADERS = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘
}

def get_detail_urls(url):
    response = requests.get(url, headers=HEADERS)
    html_str = response.text

    # 获取数据
    html = etree.HTML(html_str)
    ul = html.xpath("//ul[@class=‘list‘]/li/a/@href")
    urls_list =list()
    for li in ul:
        urls_list.append(li)
    return urls_list

def parse_detail_page(detail_url):

    response = requests.get(detail_url,headers=HEADERS)
    html_str = response.content.decode(‘GBK‘)
    html = etree.HTML(html_str)
    # 定义字典存储电影信息
    movie = dict()

    # 获取电影名字
    movie[‘title‘] = html.xpath("//div[@id=‘endText‘]/strong/a/text()")[0]

    infos = html.xpath("//div[@id=‘endText‘]/p/text()")

    for index,info in enumerate(infos):
        info = info.strip()
        # print(‘=‘ * 30)
        # print(index,info)
        if info.startswith("◎年　　代"):
            movie[‘year‘] = info.replace(‘◎年　　代‘,‘‘).strip()
        elif info.startswith("◎IMDb评分"):
            movie[‘IMDBscore‘] = info.replace(‘◎IMDb评分‘, ‘‘).strip()
        elif info.startswith("◎片　　长"):
            movie[‘duration‘] = info.replace(‘◎片　　长‘, ‘‘).strip()
        elif info.startswith("◎导　　演"):
            movie[‘direction‘] = info.replace(‘◎导　　演‘, ‘‘).strip()
        elif info.startswith("◎主　　演"):
            info = info.replace(‘◎主　　演‘, ‘‘).strip()
            actors = [info]
            for x in range(index+1, len(infos)):
                actor = infos[x].strip()
                if actor.startswith("◎"):
                    break
                actors.append(actor)
            movie[‘actors‘] = actors
    return movie

def main():
    # 1.构造url地址
    base_url = ‘http://www.hao6v.net/dy/index_{}.html‘
    for i in range(1,2):
        if i == 1:
            url = base_url.replace(‘_{}‘,‘‘)
        else:
            url = base_url.format(i)

        # 2.获取详细地址
        urls_list = get_detail_urls(url)

        # 3.解析详情页面
        movie_detail_info = list()
        for detail_url in urls_list:
            movie = parse_detail_page(detail_url)
            movie_detail_info.append(movie)
            print(movie_detail_info)

if __name__ == ‘__main__‘:
    main()

运行结果如下：

原文地址：https://www.cnblogs.com/OliverQin/p/12589541.html

时间： 2024-11-06 15:22:05

【Python3 爬虫】U09_爬取hao6v电影网的相关文章

利用Scrapy爬取1905电影网

本文将从以下几个方面讲解Scrapy爬虫的基本操作 Scrapy爬虫介绍 Scrapy安装 Scrapy实例--爬取1905电影网相关资料 Scrapy 爬虫介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.它也提供了多种类型爬虫的基类,如BaseSpider.sitemap爬虫等,最

第一个nodejs爬虫：爬取豆瓣电影图片

第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require('https'); //使用https模块 var fs = require('fs');//文件读写 var cheerio = require('cheerio');//jquery写法获取所得页面dom元素 var request = require('request');//发送reques

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验

一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req

Python爬虫之爬取煎蛋网妹子图

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载煎蛋网妹子图指定页面或全部图片,并将图片下载到磁盘. 首先导入模块:urllib.request.re.os import urllib.request import re import os urllib.request模块用于获取HTML页面数据 re模块用于通过正则表达式解析并截取HTML页面图片url os模块用于文件夹相关操作代码不多,直接贴出来,代码解释在注释中: def crawl_jiandan(page, p

爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）

煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' print requests.get(url).text 执行上述代码,你得到的结果应该跟我一样: 煎蛋网应该是通过检测headers来判断是否爬虫,要想获取正常的源代码,需要伪装成浏览器. # -*- coding: utf-8 -*- import re import requests from

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url 2.今天是对电影url 进行再次解析获取下载地址并写入文件调用函数和类多线程还没实现一步步来吧 3.问题:我想实现的是先对菜单进行创建文件目录然后每个目录下以获取的电影名称.txt 作为文件文件内是下载连接,但是创建一级菜单文件夹没问题用OS模块就可以创建在写入电影名称.txt时候出问题报错我以为是编码问题 f.open

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看 python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误 http.client.RemoteDisconnected: Remote end closed connection without response 但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4) requests模块安装和使用,这里就不说

python3 爬虫之爬取安居客二手房资讯(多线程版)

第一步先分析网站结构http://esf.zs.fang.com/ 寻找我们需要获取的信息,点击进去看看, 链接里面信息更加详细,这些就是我们要获取的. 1.我们可以先获取http://esf.zs.fang.com/链接下的所有详细链接http://esf.zs.fang.com/chushou/3_255784229.htm 2.然后可以在详细链接下分析获取我们所需要的数据 3.获取数据之后存取到数据库mongodb 打开管理员工具F12观察http://esf.zs.fang.com/的详