打造一款Python实现自动下载电影的“脚本”！那种电影也可以哦！

都很有规律不是吗？而在Scrapy里面，就可以设定我们想要的规律，Scrapy就可以对这些符合规律的网址及页面信息进行处理。先来看看成果吧，这一部分中，我们想要的结果就是输出排行榜里面的电影名称：

而且我们其实可以做的更好。

Pycharm用这个文件夹创建Project，douban/db处创建一个方便IDE运行的文件run.py

输入

from scrapy.cmdline import execute

execute([‘scrapy‘, ‘crawl‘, ‘douban‘])

打开douban/db/items.py，如该文件的名字，这个是我们从豆瓣这个“仓库”里取出来的“货”，我们想要的是什么“货”呢？电影名字。

classDbItem( scrapy.Item ) :

name = scrapy.Field ()

douban/db/db/spiders下创建spider.py，这个文件用来爬取网页，处理网址，我们需要告诉他我们想去的“仓库”该怎么走，该怎么爬。

“货物”信息的获取

下面轮到parse_item这个人来干活了，他需要从上述指定地点找到我们要的“货物”的信息，“货物”位于何处可以通过Xpath来查找。网页上点右键查看源代码，被给包住了，Xpath的功能就是通过这些标签来找到特定信息。

浏览器F12打开调试控制台，

指到该信息处，右侧就会显示出对应的代码

点右键有个好东西，

这个就可以拿来用啦。不幸的是，Scrapy经常不能识别出来，所以我们还需要会一点Xpath的语法（查一查10分钟搞定），参考Copy的自己修改一下。这里推荐Chrome的Xpath Helper这个插件，可以查看自己写的Xpath正不正确。

def parse_item(self,response):

name=response.xpath(‘//*[@class="title"][1]‘)

print(name)

好了，测试一下，运行run.py出现以下问题，403 forbidden，网站怀疑我们是机器人操作，

于是在setting.py里面伪装我们是浏览器的正常操作，

增加一个

总结

Scrapy可用来爬特定规则的网址，并进行处理；allow、follow等参数告诉程序如何“顺蔓摸瓜”；Xpath可方便的找出网页中的信息，本文举到的例子仅仅是提取电影名，我们其实如文章一开始的图片可以做的更丰富一些，对分数、演员、导演等加入一些判断，选择我们需要的电影。

进群：125240963 即可获取源码哦！

原文地址：https://www.cnblogs.com/PY147/p/9190659.html

时间： 2024-10-09 10:38:31

打造一款Python实现自动下载电影的“脚本”！那种电影也可以哦！的相关文章

自动下载图片的脚本

很多年前,自己写的,自己的文件丢失了,神奇的网络让我又找到了 #!/bin/bash #Description: # download national geographic photo of the day and set it as background # wait for network connection to be established [[ -n $1 ]] && sleep $1 resolution=$(xrandr |grep -o 'current [^,]*'|

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码效果运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车好像开始下载了!好赞!,我看

【图文详解】python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 1. 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 2. 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 3. 编写正则表达式或

Python小爬虫-自动下载三亿文库文档

新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn=',后面加上页码来抓取网页. 一般网页会用1,2,3...不过机智的三亿文库用0,25,50...来表示,所以我们在拼接ur

[python] 1、python鼠标点击、移动事件应用——写一个自动下载百度音乐的程序

1.问题描述: 最近百度总爱做一些破坏用户信任度的事——文库金币变券.网盘限速,吓得我赶紧想办法把存在百度云音乐中的歌曲下载到本地. http://yinyueyun.baidu.com/ 可问题是云音乐中并没有批量下载,而上面我总共存了700多首音乐! 因此:有必要写一个脚本自动下载这些音乐了!!! 2.解决问题自动下载歌曲有两种方法: JS法模拟鼠标点击法由于考虑到JS法需要分析网页结构.寻找下载链接,工作量有点大,于是选择用模拟鼠标点击法! 在linux上我首先想到用python来做

如何用Python爬虫实现百度图片自动下载？

Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或者XPath表达式正式编写 python 爬虫代码效果预览运行效果如下: 存放图片的文件夹: 需求分析我们的爬虫至少要实现两个功能:一是搜索图片,二是自动下载. 搜索图片:最容易想到的是爬百度图片的结果,我们就上百度图片看看: 随便搜索几个关键字,可以看到已经搜索出来很多张图片: 分析网页

python - 将数据转换成 excl 表格, json 等文件（dajngo - 打开网页后自动下载）

本篇只讲述怎么用. 具体 tablib 更多详细用法可参考博客 : https://blog.csdn.net/liangyuannao/article/details/41476277 # 不得不说 tablib 模块是真的好使. 一. 运行脚本将文件存入本地 import tablib headers = ('商品名称', '数量', '单价', '合计') data = [ ['orange', '1', '5', '5'], ['apple', '2', '6', '12'] ]

打造一款人见人爱的ORM（一）

"很多人都不太认可以第三方ORM,因为考虑的点不够全面,没有用户群体大的ORM有保证,这点是不可否认确是事实.但是往往用户群体大的ORM又有不足之处,今天我们就来聊聊关于ORM的话题,打造一款人见人爱的ORM框架." 小程简介季健国(蚂蚁Ant),10年的工作经验, 7年的IT经验是一枚名副其实的老菜鸟.技术无边界,编程靠思想.目前主要研究方向为ORM底层核心,爬虫,WebAPI,SOA,Docker,Xamarin,微信小程序,微服务架构:个人爱好:阅读,跑

[原创]zepto打造一款移动端划屏插件

最近忙着将项目内的jquery 2换成zepto 因为不想引用过多的zepto包,所以花了点时间 zepto真的精简了许多,源代码看着真舒服正好项目内需要一个划屏插件,就用zepto写了一个逻辑其实很简单,但没想到测试时,在老版本android设备浏览器上的touchmove有许多bug 做兼容倒是搞了一阵效果图样式1 样式2 调用正常情况下应该是后台生成的html代码,但还是写了一套操作tab页的方法调用简便如下: <link rel="stylesheet" hr

猜你喜欢

C语言——字符数组

在C语言编程中,我们一般用一个字符数组来存放一个字符串.例如,我们想存储这个字符串“http://i.cnblogs.com”,这个字符串一共有20个字符,要存放下这个字符串,我们需要一个长度为21的 ...

fcitx五笔的安装[zz]

Fcitx──小企鹅输入法:Free Chinese Input Toy for X是国产软件的精品,是一个以GPL方式发布的.基于XIM的简体中文输入法集合(原为G五笔),包括五笔.五笔拼音.二笔. ...

css代码规范问题重要的有几个

很多人刚开始接触的时候都会遇到很多困难,其中规范的书写格式也较为明显:今天为大家带来一些CSS代码规范的知识. 1.良好的命名规范 ID和class的命名尽可能短,并符合语义.多个单词的拼接用 '-' ...

Ext原码学习之Ext-more.js

// JavaScript Document Ext.apply(Ext,{ userAgent:navigator.userAgent.toLowerCase(), cache:{}, isSeed ...

树莓派-01-初启动

树莓派是什么?你不知道?去百度了,很有趣的一个硬件. 网购一批配件,终于都到了,16G的SD卡,树莓派,树莓派盒子,散热片(纯铜的2片).杜邦线(据说后续有用) 一.组装硬件组装树莓派.5分钟组装完 ...

Spring开发

没有状态变化的对象(无状态对象):应当做成单例. Spring-framework的下载:http://repo.spring.io/release/org/springframework/sprin ...

《JSON必知必会》

每天上下班在地铁上很适合看这种书,入门级.难点不多.简约不失严谨. 自从全面转向ASP.NET MVC,现在基本上每天都和JSON打交道,效率.习惯.速度都要掌握. 这本书读起来很快,所以读完也蛮有成 ...

sql条件中比较性能优化

第一个比第二个性能高. 查询语句意义: 如果codelist中tablecode配置为0时, t.Table_Code = 'SV_RETURN_BILL'不生效. 如果codelist中tablec ...

org.apache.ibatis.reflection.ReflectionException: There is no getter for property named 'parentId' in 'class java.lang.String'

Caused by: org.apache.ibatis.reflection.ReflectionException: There is no getter for property named ' ...

GitLab，Bugzilla和Wikimedia安装和配置

使用的操作系统均为Ubuntu Server 14.04.3 LTS版本. 一. Gitlab安装和配置 1. 按装和配置依赖 sudo apt-get install curl openssh-se ...

ORACLE配置tnsnames.ora文件实例

ORACLE配置tnsnames.ora文件实例客户机为了和服务器连接,必须先和服务器上的监听进程联络.ORACLE通过tnsnames.ora文件中的连接描述符来说明连接信息.一般tnsnames. ...

2017.8.11 数据结构课小结

今天讲了并查集.堆和Hash表,并讲了几道比较难的题. 例1. 分析:其实这道题我们用一颗很普通的线段树,维护区间最大值就好了,因为最大值开方后还是最大值嘛. 但是开方有一个比较重要的性质:一个10^ ...

PostgresSQL使用Copy命令能大大提高数据导入速度

最近在做会员系统,其中会员系统有一份企业信息初始化的数据,需要从SQL Server数据库导入到PostgreSQL,单表的数据近30万.最开始的方案是在SQL Server上生成insert int ...

微软算法100题88 将字符串中的字符'*'移到串的前部分

函数将字符串中的字符'*'移到串的前部分,前面的非'*'字符后移,但不能改变非'*'字符的先后顺序,函数返回串中字符'*'的数量.如原始串为:ab**cd**e*12,处理后为*****abcde12 ...

整合apache和tomcat构建Web服务器

一. apache与tomcat整合的必要性 Apache是最流行的Web服务器,开放源代码,支持跨平台的应用(可以运行在几乎所有的Linux.Unix.Windows系统平台上),尤其对Linux ...

并行但并不十分高效的 for_each 实现

class ThreadsJoiner { std::vector<std::thread>& threads; public: ThreadsJoiner(std::vector ...

华硕zenfone2 ze551ml刷机

以下内容为记事,供自己以后可能需要的参考. 购买时间: 2016年12月买的asus zenfone2 ze551ml,性能不错,配置高,使用流畅,支持NFC,双开双待,有快充,像素也不错,比我 ...

[51NOD1095] Anigram单词（map）

题目链接:http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1095 字典的单词在map中排序和不排序各存1次,查的时候相减. ...

分布式技术一周技术动态 2016-09-11

searcher 分布式纵向方向主要涵盖的范围包括分布式系统理论和设计实践, 资源管理和虚拟化技术, 大规模服务稳定性技术, DevOps和自动运维技术等方面, “分布式方向一周技术动态"是 ...

一些小知识点记录

1.什么是文档流? 回答1:文档流是文档中可显示对象在排列时所占用的位置.比如网页的div标签它默认占用的宽度位置是一整行,p标签默认占用宽度也是一整行,因为div标签和p标签是块状对象. 网页中大部 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.