Python爬虫爬取腾讯视频动漫专区的动漫及其描述

闲来无事爬点动漫资讯看看

下面这个是腾讯视频动漫板块的超链接

[https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1]

上面的红框中第一个是动漫的标题，第二个是动漫的咨询简单描述

如何用Python爬取上述信息

首先要用浏览器的开发者工具查到相应的信息实在那几个html文件中

上面的红框中就是对应的标签，但我们用正则表达式取标签的时候应该尽量取它的上一层标签（因为如果单单取名字标签，很难把对应的描述最后对应起来）

之后就开始代码的编写了

# -*- coding: utf-8 -*-
# @Time    : 2019/3/25 17:26
# @Author  :
# @Email   :
# @File    : .py
# @Software: PyCharm

import urllib.request
import re
from lxml import etree

def cartoonCrawler(url):
    headers = {
        "User-Agnet": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
    }
    req = urllib.request.Request(url, headers = headers)
    response = urllib.request.urlopen(req)
    HTML = response.read().decode("utf-8")

    # re.S匹配换行符
    cartoon1 = re.compile(r‘<div class="figure_detail figure_detail_two_row">(.+?)</div>‘,re.S).findall(HTML)
    # print(cartoon1)
    dictCartoon = {}
    for i in cartoon1:
        # 将字符串转化为文本形式
        i=etree.HTML(i)
        # 关于xpath的详见https://blog.csdn.net/it_arookie/article/details/82825448
        name = i.xpath("//a[@class=‘figure_title figure_title_two_row bold‘]/@title")
        title = i.xpath("//div[@class=‘figure_desc‘]/@title")
        # 将匹配的不同标签的字典用字典的形式来组合成键值对
        dictCartoon[name[0]]=title[0]

    return dictCartoon

url = "https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1"
info = cartoonCrawler(url)

print(info)
for k,v in info.items():
    print("标题：",k,"  描述："+v)

结果，最后还可以通过动态请求继续获取的请求，这个下次再说


{‘斗罗大陆‘: ‘此生不悔入唐门‘, ‘狐妖小红娘‘: ‘鞘笛不离 至死不渝‘, ‘武动乾坤‘: ‘武之极，破苍穹，动乾坤‘, ‘灵剑尊‘: ‘落魄少主闯荡大陆，天地三界，我为至尊！‘, ‘雄兵连之诸天降临‘: ‘抗击外星入侵‘, ‘万界神主‘: ‘陨落古神，遨游苍蓝‘, ‘雪鹰领主‘: ‘超凡守护 热“雪”来袭‘, ‘魔道祖师‘: ‘仙门少年为民除害斩邪祟‘, ‘通灵妃‘: ‘年度鬼畜爱情大戏‘, ‘画江湖之不良人 第3季‘: ‘王者弈天下 大唐生死局‘, ‘猫妖的诱惑 正式版‘: ‘自古爱恨两难，当然是插他两刀‘, ‘巨兵长城传 第1季‘: ‘一场关乎世界安危的冒险‘, ‘狠西游 第2季‘: ‘18年12月 绝境重生！‘, ‘地灵曲‘: ‘3D动画版鬼吹灯‘, ‘斗破苍穹 第2季‘: ‘萧炎归来 风云再起‘, ‘全职高手‘: ‘十年热血书写电竞辉煌‘, ‘武庚纪 第2季‘: ‘商朝王子武庚逆袭记‘, ‘妖神记之影妖篇‘: ‘聂离融合妖灵迅速成长‘, ‘一人之下 第2季‘: ‘风起云涌罗天大醮‘, ‘斗罗大陆2 绝世唐门 动态漫画‘: ‘唐三之后，斗罗大陆新星降临。‘, ‘非人哉‘: ‘神仙妖怪的爆笑日常‘, ‘星辰变 第1季‘: ‘少年逆天改命成王‘, ‘超神学院之雄兵连‘: ‘世纪大战一触即发‘, ‘天行九歌‘: ‘超高颜值的权谋史诗‘, ‘刺客伍六七‘: ‘神秘美少女的遗愿清单‘, ‘万界仙踪‘: ‘少年掌门人 背负血海深仇‘, ‘全职法师 第3季‘: ‘法师集结，决战狂魔‘, ‘斗破苍穹 特别篇‘: ‘9月30日萧炎上线！‘, ‘动态漫画·驸马不要啊‘: ‘霸道公主驯服花花公子‘, ‘妖神记 第2季‘: ‘成为最强妖灵师‘}
标题： 斗罗大陆   描述：此生不悔入唐门
标题： 狐妖小红娘   描述：鞘笛不离 至死不渝
标题： 武动乾坤   描述：武之极，破苍穹，动乾坤
标题： 灵剑尊   描述：落魄少主闯荡大陆，天地三界，我为至尊！
标题： 雄兵连之诸天降临   描述：抗击外星入侵
标题： 万界神主   描述：陨落古神，遨游苍蓝
标题： 雪鹰领主   描述：超凡守护 热“雪”来袭
标题： 魔道祖师   描述：仙门少年为民除害斩邪祟
标题： 通灵妃   描述：年度鬼畜爱情大戏
标题： 画江湖之不良人 第3季   描述：王者弈天下 大唐生死局
标题： 猫妖的诱惑 正式版   描述：自古爱恨两难，当然是插他两刀
标题： 巨兵长城传 第1季   描述：一场关乎世界安危的冒险
标题： 狠西游 第2季   描述：18年12月 绝境重生！
标题： 地灵曲   描述：3D动画版鬼吹灯
标题： 斗破苍穹 第2季   描述：萧炎归来 风云再起
标题： 全职高手   描述：十年热血书写电竞辉煌
标题： 武庚纪 第2季   描述：商朝王子武庚逆袭记
标题： 妖神记之影妖篇   描述：聂离融合妖灵迅速成长
标题： 一人之下 第2季   描述：风起云涌罗天大醮
标题： 斗罗大陆2 绝世唐门 动态漫画   描述：唐三之后，斗罗大陆新星降临。
标题： 非人哉   描述：神仙妖怪的爆笑日常
标题： 星辰变 第1季   描述：少年逆天改命成王
标题： 超神学院之雄兵连   描述：世纪大战一触即发
标题： 天行九歌   描述：超高颜值的权谋史诗
标题： 刺客伍六七   描述：神秘美少女的遗愿清单
标题： 万界仙踪   描述：少年掌门人 背负血海深仇
标题： 全职法师 第3季   描述：法师集结，决战狂魔
标题： 斗破苍穹 特别篇   描述：9月30日萧炎上线！
标题： 动态漫画·驸马不要啊   描述：霸道公主驯服花花公子
标题： 妖神记 第2季   描述：成为最强妖灵师`

原文地址：https://www.cnblogs.com/ai2050/p/10733095.html

时间： 2024-08-15 06:58:47

Python爬虫爬取腾讯视频动漫专区的动漫及其描述的相关文章

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列（1）

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding(&q

Python爬虫实战：爬取腾讯视频的评论

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存爬取博客园指定用户的文章修饰后全部保存到本地首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

用Python爬虫爬取广州大学教务系统的成绩（内网访问）

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中的内容带有相

Python爬虫爬取一篇韩寒新浪博客