python 下载文件 & 防盗链

偶然下载一种类型的资源,发现好多翻页,右键另存什么的,不胜其烦。

决定用python写几句代码搞定。核心代码如下:

from urllib import urlretrieve

from urllib import urlretrieve
urlretrieve(url,save_to_path,show_download_progress)

至于url,简单的用爬虫的思路得到的。非本文的重点,不再啰嗦。

问题来了,不知道为什么,下载的所有文件都是42k!

百思不得其解,应该是某种限制,脑袋不灵光,想了半天才想到,应该是防盗链。

查了下,于是用wireshark模拟了一下,发现header参数太多,弄不好每个都要设(取决于人家网站的逻辑设计),于是不管三七二十一,先给射了个Reffer。

不幸的成功了。好吧,不用再研究了,收工,特记录之。

以上问题的解决方案:

import urllib2
req = urllib2.Request(‘http://www.example.com/‘)
req.add_header(‘Referer‘, ‘http://www.python.org/‘)
resp = urllib2.urlopen(req)
content = resp.read()

接下来,只需要吧content写到文件里面去就好了,此处略。

时间: 2024-10-14 20:16:34

python 下载文件 & 防盗链的相关文章

Nginx学习之如何搭建文件防盗链服务

Nginx学习之如何搭建文件防盗链服务 前言 大家都知道现在很多站点下载资料都是要收费的,无论是积分还是金币,想免费只能说很少很少了,那么这些网站是如何做到资源防盗链的呢? 这里推荐一款比较容易上手的神器,Nginx本身提供了secure_link来完成防盗链功能,可以给服务器文件链接添加时间戳和校验码,从而保护服务器文件不被任意下载盗用. 时序图 Nginx配置 如何安装Nginx这里不再赘述,安装的时候记得开启ngx_http_secure_link_module即可. ./configur

【331】python 下载文件:wget / urllib

参考:python下载文件的三种方法(去掉-) 方法一:wget import wget, os # 设置下载路径 os.chdir(r"D:/tmp") url="https://files.cnblogs.com/files/alex-bn-lee/ESRI_01.zip" # 获取下载文件名称 filename = wget.detect_filename(url) # 文件下载 wget.download(url) 方法二:urllib import url

python下载文件的三种方法

Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法requests. 下面来看看三种方法是如何来下载zip文件的:方法一: import urllib import urllib2 import requests print "downloading with urllib" url = 'http://***/test/demo.zip

Asp.net 图片文件防盗链介绍

想要实现文件放盗链的功能 首先添加一个全局文件 Global.asax 在 Application_BeginRequest中我们可以判断Http报文头中的UrlReferre是否来源本站. if (HttpContext.Current.Request.UrlReferrer != null) { if (HttpContext.Current.Request.Url.AbsolutePath.EndsWith("jpg", StringComparison.OrdinalIgnor

python下载文件的方法

前一段时间是爬文字,最近准备爬图片 找到了两种保存文件的方法 一种是用urllib.urlretrieve方法 #-*- coding: utf-8 -*- import urllib def callbackfunc(blocknum, blocksize, totalsize): '''回调函数 @blocknum: 已经下载的数据块 @blocksize: 数据块的大小 @totalsize: 远程文件的大小 ''' percent = 100.0 * blocknum * blocksi

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页 基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req 

PHP做好防盗链的基本思想 防盗链的设置方法

盗链是指服务提供商自己不提供服务的内容,通过技术手段绕过其它有利益的最终用户界面(如广告),直接在自己的网站上向最终用户提供其它服务提供商的服务内容,骗取最终用户的浏览和点击率.受益者不提供资源或提供很少的资源,而真正的服务提供商却得不到任何的收益.做好防止盗链的工作,是每个网站开发者的重要工作. 做好防盗链工作能给网站服务器减少不少压力,这里我们分享一种php防盗链的实现方法: 一般的下载的步骤:查找->输出查找结果列表->进入软件详细页面->点击下载按钮->打开下载页面->

如何拒绝对某特定扩展名文件的下载,如何防盗链

问题 如何拒绝对某特定扩展名文件的下载,如何防盗链 解决方案 虚拟主机服务器上,如果有过多的mp3等文件,可能会被搜索引擎查到并且导致巨额的下载量.这种情况下,对服务器的负担有很大的影响那么如和禁止某种特殊文件的下载呢? 编辑/usr/prima/etc/httpd/site.conf在其中加入如下一段:<FilesMatch "\.(mp3|avi)"> Order Deny,AllowDeny from all</FilesMatch>重新启动/etc/in

Nginx下载防盗链(迅雷等下载软件)

什么是下载盗链   假设我们是一个B站,有些视频资源是可以提供给用户下载的.这时迅雷等其他下载软件,也提供下载该视频的服务, 但是迅雷很不厚道的,将我们的下载资源提供给他的用户,下载.占用我们的带宽来服务他的用户,这是绝对不可以忍了的. 使用来源判断根本不靠谱,只能防止一些小白站点的盗链,迅雷之类的下载工具完全无效,如果你是 nginx 的话,使用 secure link 完美解决这个问题,远离迅雷. 本文仅用于下载服务器,不适用于图片防盗链. 原理 用户访问 down.php down.php