Python爬虫爬取腾讯视频动漫专区的动漫及其描述

闲来无事爬点动漫资讯看看

下面这个是腾讯视频动漫板块的超链接

[https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1]

上面的红框中第一个是动漫的标题,第二个是动漫的咨询简单描述

如何用Python爬取上述信息

首先要用浏览器的开发者工具查到相应的信息实在那几个html文件中

上面的红框中就是对应的标签,但我们用正则表达式取标签的时候应该尽量取它的上一层标签(因为如果单单取名字标签,很难把对应的描述最后对应起来

之后就开始代码的编写了

# -*- coding: utf-8 -*-
# @Time    : 2019/3/25 17:26
# @Author  :
# @Email   :
# @File    : .py
# @Software: PyCharm

import urllib.request
import re
from lxml import etree

def cartoonCrawler(url):
    headers = {
        "User-Agnet": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
    }
    req = urllib.request.Request(url, headers = headers)
    response = urllib.request.urlopen(req)
    HTML = response.read().decode("utf-8")

    # re.S匹配换行符
    cartoon1 = re.compile(r‘<div class="figure_detail figure_detail_two_row">(.+?)</div>‘,re.S).findall(HTML)
    # print(cartoon1)
    dictCartoon = {}
    for i in cartoon1:
        # 将字符串转化为文本形式
        i=etree.HTML(i)
        # 关于xpath的详见https://blog.csdn.net/it_arookie/article/details/82825448
        name = i.xpath("//a[@class=‘figure_title figure_title_two_row bold‘]/@title")
        title = i.xpath("//div[@class=‘figure_desc‘]/@title")
        # 将匹配的不同标签的字典用字典的形式来组合成键值对
        dictCartoon[name[0]]=title[0]

    return dictCartoon

url = "https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1"
info = cartoonCrawler(url)

print(info)
for k,v in info.items():
    print("标题:",k,"  描述:"+v)

结果,最后还可以通过动态请求继续获取的请求 ,这个下次再说


{‘斗罗大陆‘: ‘此生不悔入唐门‘, ‘狐妖小红娘‘: ‘鞘笛不离 至死不渝‘, ‘武动乾坤‘: ‘武之极,破苍穹,动乾坤‘, ‘灵剑尊‘: ‘落魄少主闯荡大陆,天地三界,我为至尊!‘, ‘雄兵连之诸天降临‘: ‘抗击外星入侵‘, ‘万界神主‘: ‘陨落古神,遨游苍蓝‘, ‘雪鹰领主‘: ‘超凡守护 热“雪”来袭‘, ‘魔道祖师‘: ‘仙门少年为民除害斩邪祟‘, ‘通灵妃‘: ‘年度鬼畜爱情大戏‘, ‘画江湖之不良人 第3季‘: ‘王者弈天下 大唐生死局‘, ‘猫妖的诱惑 正式版‘: ‘自古爱恨两难,当然是插他两刀‘, ‘巨兵长城传 第1季‘: ‘一场关乎世界安危的冒险‘, ‘狠西游 第2季‘: ‘18年12月 绝境重生!‘, ‘地灵曲‘: ‘3D动画版鬼吹灯‘, ‘斗破苍穹 第2季‘: ‘萧炎归来 风云再起‘, ‘全职高手‘: ‘十年热血书写电竞辉煌‘, ‘武庚纪 第2季‘: ‘商朝王子武庚逆袭记‘, ‘妖神记之影妖篇‘: ‘聂离融合妖灵迅速成长‘, ‘一人之下 第2季‘: ‘风起云涌罗天大醮‘, ‘斗罗大陆2 绝世唐门 动态漫画‘: ‘唐三之后,斗罗大陆新星降临。‘, ‘非人哉‘: ‘神仙妖怪的爆笑日常‘, ‘星辰变 第1季‘: ‘少年逆天改命成王‘, ‘超神学院之雄兵连‘: ‘世纪大战一触即发‘, ‘天行九歌‘: ‘超高颜值的权谋史诗‘, ‘刺客伍六七‘: ‘神秘美少女的遗愿清单‘, ‘万界仙踪‘: ‘少年掌门人 背负血海深仇‘, ‘全职法师 第3季‘: ‘法师集结,决战狂魔‘, ‘斗破苍穹 特别篇‘: ‘9月30日萧炎上线!‘, ‘动态漫画·驸马不要啊‘: ‘霸道公主驯服花花公子‘, ‘妖神记 第2季‘: ‘成为最强妖灵师‘}
标题: 斗罗大陆   描述:此生不悔入唐门
标题: 狐妖小红娘   描述:鞘笛不离 至死不渝
标题: 武动乾坤   描述:武之极,破苍穹,动乾坤
标题: 灵剑尊   描述:落魄少主闯荡大陆,天地三界,我为至尊!
标题: 雄兵连之诸天降临   描述:抗击外星入侵
标题: 万界神主   描述:陨落古神,遨游苍蓝
标题: 雪鹰领主   描述:超凡守护 热“雪”来袭
标题: 魔道祖师   描述:仙门少年为民除害斩邪祟
标题: 通灵妃   描述:年度鬼畜爱情大戏
标题: 画江湖之不良人 第3季   描述:王者弈天下 大唐生死局
标题: 猫妖的诱惑 正式版   描述:自古爱恨两难,当然是插他两刀
标题: 巨兵长城传 第1季   描述:一场关乎世界安危的冒险
标题: 狠西游 第2季   描述:18年12月 绝境重生!
标题: 地灵曲   描述:3D动画版鬼吹灯
标题: 斗破苍穹 第2季   描述:萧炎归来 风云再起
标题: 全职高手   描述:十年热血书写电竞辉煌
标题: 武庚纪 第2季   描述:商朝王子武庚逆袭记
标题: 妖神记之影妖篇   描述:聂离融合妖灵迅速成长
标题: 一人之下 第2季   描述:风起云涌罗天大醮
标题: 斗罗大陆2 绝世唐门 动态漫画   描述:唐三之后,斗罗大陆新星降临。
标题: 非人哉   描述:神仙妖怪的爆笑日常
标题: 星辰变 第1季   描述:少年逆天改命成王
标题: 超神学院之雄兵连   描述:世纪大战一触即发
标题: 天行九歌   描述:超高颜值的权谋史诗
标题: 刺客伍六七   描述:神秘美少女的遗愿清单
标题: 万界仙踪   描述:少年掌门人 背负血海深仇
标题: 全职法师 第3季   描述:法师集结,决战狂魔
标题: 斗破苍穹 特别篇   描述:9月30日萧炎上线!
标题: 动态漫画·驸马不要啊   描述:霸道公主驯服花花公子
标题: 妖神记 第2季   描述:成为最强妖灵师`

原文地址:https://www.cnblogs.com/ai2050/p/10733095.html

时间: 2024-08-15 06:58:47

Python爬虫爬取腾讯视频动漫专区的动漫及其描述的相关文章

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding(&q

Python爬虫实战:爬取腾讯视频的评论

前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 一.前提条件 安装了Fiddler了(用于抓包分析) 谷歌或火狐浏览器 如果是谷歌浏览器,还需要给谷歌浏览器安装一个SwitchyOmega插件,用于

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存        爬取博客园指定用户的文章修饰后全部保存到本地 首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

用Python爬虫爬取广州大学教务系统的成绩(内网访问)

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中 的内容带有相

Python爬虫爬取一篇韩寒新浪博客

网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客.第三集讲爬取所有博客. 看了视频.也留下了代码. 爬虫第一步:查看网页源码: 第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/