打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!

都很有规律不是吗?而在Scrapy里面,就可以设定我们想要的规律,Scrapy就可以对这些符合规律的网址及页面信息进行处理。先来看看成果吧,这一部分中,我们想要的结果就是输出排行榜里面的电影名称:

而且我们其实可以做的更好。

Pycharm用这个文件夹创建Project,douban/db处创建一个方便IDE运行的文件run.py

输入

from scrapy.cmdline import execute

execute([‘scrapy‘, ‘crawl‘, ‘douban‘])

打开douban/db/items.py,如该文件的名字,这个是我们从豆瓣这个“仓库”里取出来的“货”,我们想要的是什么“货”呢?电影名字。

classDbItem( scrapy.Item ) :

name = scrapy.Field ()

douban/db/db/spiders下创建spider.py,这个文件用来爬取网页,处理网址,我们需要告诉他我们想去的“仓库”该怎么走,该怎么爬。

“货物”信息的获取

下面轮到parse_item这个人来干活了,他需要从上述指定地点找到我们要的“货物”的信息,“货物”位于何处可以通过Xpath来查找。网页上点右键查看源代码,被给包住了,Xpath的功能就是通过这些标签来找到特定信息。

浏览器F12打开调试控制台,

指到该信息处,右侧就会显示出对应的代码

点右键有个好东西,

这个就可以拿来用啦。不幸的是,Scrapy经常不能识别出来,所以我们还需要会一点Xpath的语法(查一查10分钟搞定),参考Copy的自己修改一下。这里推荐Chrome的Xpath Helper这个插件,可以查看自己写的Xpath正不正确。

def parse_item(self,response):

name=response.xpath(‘//*[@class="title"][1]‘)

print(name)

好了,测试一下,运行run.py出现以下问题,403 forbidden,网站怀疑我们是机器人操作,

于是在setting.py里面伪装我们是浏览器的正常操作,

增加一个

总结

Scrapy可用来爬特定规则的网址,并进行处理;allow、follow等参数告诉程序如何“顺蔓摸瓜”;Xpath可方便的找出网页中的信息,本文举到的例子仅仅是提取电影名,我们其实如文章一开始的图片可以做的更丰富一些,对分数、演员、导演等加入一些判断,选择我们需要的电影。

进群:125240963   即可获取源码哦!

原文地址:https://www.cnblogs.com/PY147/p/9190659.html

时间: 2024-10-09 10:38:31

打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!的相关文章

自动下载图片的脚本

很多年前,自己写的,自己的文件丢失了,神奇的网络让我又找到了 #!/bin/bash #Description: # download national geographic photo of the day and set it as background # wait for network connection to be established [[ -n $1 ]] && sleep $1 resolution=$(xrandr |grep -o 'current [^,]*'|

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码 效果 运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车 好像开始下载了!好赞!,我看

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2. 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 3. 编写正则表达式或

Python小爬虫-自动下载三亿文库文档

新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn=',后面加上页码来抓取网页. 一般网页会用1,2,3...不过机智的三亿文库用0,25,50...来表示,所以我们在拼接ur

[python] 1、python鼠标点击、移动事件应用——写一个自动下载百度音乐的程序

1.问题描述: 最近百度总爱做一些破坏用户信任度的事——文库金币变券.网盘限速,吓得我赶紧想办法把存在百度云音乐中的歌曲下载到本地. http://yinyueyun.baidu.com/ 可问题是云音乐中并没有批量下载,而上面我总共存了700多首音乐! 因此:有必要写一个脚本自动下载这些音乐了!!! 2.解决问题 自动下载歌曲有两种方法: JS法 模拟鼠标点击法 由于考虑到JS法需要分析网页结构.寻找下载链接,工作量有点大,于是选择用模拟鼠标点击法! 在linux上我首先想到用python来做

如何用Python爬虫实现百度图片自动下载?

Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤 制作一个爬虫一般分以下几个步骤: 分析需求 分析网页源代码,配合开发者工具 编写正则表达式或者XPath表达式 正式编写 python 爬虫代码 效果预览 运行效果如下: 存放图片的文件夹: 需求分析 我们的爬虫至少要实现两个功能:一是搜索图片,二是自动下载. 搜索图片:最容易想到的是爬百度图片的结果,我们就上百度图片看看: 随便搜索几个关键字,可以看到已经搜索出来很多张图片: 分析网页

python - 将数据转换成 excl 表格, json 等文件 (dajngo - 打开网页后自动下载)

本篇只讲述怎么用. 具体 tablib  更多详细用法可参考博客 : https://blog.csdn.net/liangyuannao/article/details/41476277 # 不得不说  tablib  模块是真的好使. 一. 运行脚本将文件存入本地 import tablib headers = ('商品名称', '数量', '单价', '合计') data = [ ['orange', '1', '5', '5'], ['apple', '2', '6', '12'] ]

打造一款人见人爱的ORM(一)

      "很多人都不太认可以第三方ORM,因为考虑的点不够全面,没有用户群体大的ORM有保证,这点是不可否认确是事实.但是往往用户群体大的ORM又有不足之处,今天我们就来聊聊关于ORM的话题,打造一款人见人爱的ORM框架." 小程简介       季健国(蚂蚁Ant),10年的工作经验, 7年的IT经验是一枚名副其实的老菜鸟.技术无边界,编程靠思想.目前主要研究方向为ORM底层核心,爬虫,WebAPI,SOA,Docker,Xamarin,微信小程序,微服务架构:个人爱好:阅读,跑

[原创]zepto打造一款移动端划屏插件

最近忙着将项目内的jquery 2换成zepto 因为不想引用过多的zepto包,所以花了点时间 zepto真的精简了许多,源代码看着真舒服 正好项目内需要一个划屏插件,就用zepto写了一个 逻辑其实很简单,但没想到测试时,在老版本android设备浏览器上的touchmove有许多bug 做兼容倒是搞了一阵 效果图 样式1 样式2 调用 正常情况下应该是后台生成的html代码,但还是写了一套操作tab页的方法 调用简便如下: <link rel="stylesheet" hr