python 下载文件 & 防盗链

偶然下载一种类型的资源，发现好多翻页，右键另存什么的，不胜其烦。

决定用python写几句代码搞定。核心代码如下：

from urllib import urlretrieve

from urllib import urlretrieve
urlretrieve(url,save_to_path,show_download_progress)

至于url，简单的用爬虫的思路得到的。非本文的重点，不再啰嗦。

问题来了，不知道为什么，下载的所有文件都是42k！

百思不得其解，应该是某种限制，脑袋不灵光，想了半天才想到，应该是防盗链。

查了下，于是用wireshark模拟了一下，发现header参数太多，弄不好每个都要设（取决于人家网站的逻辑设计），于是不管三七二十一，先给射了个Reffer。

不幸的成功了。好吧，不用再研究了，收工，特记录之。

以上问题的解决方案：

import urllib2
req = urllib2.Request(‘http://www.example.com/‘)
req.add_header(‘Referer‘, ‘http://www.python.org/‘)
resp = urllib2.urlopen(req)
content = resp.read()

接下来，只需要吧content写到文件里面去就好了，此处略。

时间： 2024-10-14 20:16:34

python 下载文件 & 防盗链的相关文章

Nginx学习之如何搭建文件防盗链服务

Nginx学习之如何搭建文件防盗链服务前言大家都知道现在很多站点下载资料都是要收费的,无论是积分还是金币,想免费只能说很少很少了,那么这些网站是如何做到资源防盗链的呢? 这里推荐一款比较容易上手的神器,Nginx本身提供了secure_link来完成防盗链功能,可以给服务器文件链接添加时间戳和校验码,从而保护服务器文件不被任意下载盗用. 时序图 Nginx配置如何安装Nginx这里不再赘述,安装的时候记得开启ngx_http_secure_link_module即可. ./configur

【331】python 下载文件：wget / urllib

参考:python下载文件的三种方法(去掉-) 方法一:wget import wget, os # 设置下载路径 os.chdir(r"D:/tmp") url="https://files.cnblogs.com/files/alex-bn-lee/ESRI_01.zip" # 获取下载文件名称 filename = wget.detect_filename(url) # 文件下载 wget.download(url) 方法二:urllib import url

python下载文件的三种方法

Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法requests. 下面来看看三种方法是如何来下载zip文件的:方法一: import urllib import urllib2 import requests print "downloading with urllib" url = 'http://***/test/demo.zip

Asp.net 图片文件防盗链介绍

想要实现文件放盗链的功能首先添加一个全局文件 Global.asax 在 Application_BeginRequest中我们可以判断Http报文头中的UrlReferre是否来源本站. if (HttpContext.Current.Request.UrlReferrer != null) { if (HttpContext.Current.Request.Url.AbsolutePath.EndsWith("jpg", StringComparison.OrdinalIgnor

python下载文件的方法

前一段时间是爬文字,最近准备爬图片找到了两种保存文件的方法一种是用urllib.urlretrieve方法 #-*- coding: utf-8 -*- import urllib def callbackfunc(blocknum, blocksize, totalsize): '''回调函数 @blocknum: 已经下载的数据块 @blocksize: 数据块的大小 @totalsize: 远程文件的大小 ''' percent = 100.0 * blocknum * blocksi

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req

PHP做好防盗链的基本思想防盗链的设置方法

盗链是指服务提供商自己不提供服务的内容,通过技术手段绕过其它有利益的最终用户界面(如广告),直接在自己的网站上向最终用户提供其它服务提供商的服务内容,骗取最终用户的浏览和点击率.受益者不提供资源或提供很少的资源,而真正的服务提供商却得不到任何的收益.做好防止盗链的工作,是每个网站开发者的重要工作. 做好防盗链工作能给网站服务器减少不少压力,这里我们分享一种php防盗链的实现方法: 一般的下载的步骤:查找->输出查找结果列表->进入软件详细页面->点击下载按钮->打开下载页面->

如何拒绝对某特定扩展名文件的下载，如何防盗链

问题如何拒绝对某特定扩展名文件的下载,如何防盗链解决方案虚拟主机服务器上,如果有过多的mp3等文件,可能会被搜索引擎查到并且导致巨额的下载量.这种情况下,对服务器的负担有很大的影响那么如和禁止某种特殊文件的下载呢? 编辑/usr/prima/etc/httpd/site.conf在其中加入如下一段:<FilesMatch "\.(mp3|avi)"> Order Deny,AllowDeny from all</FilesMatch>重新启动/etc/in

Nginx下载防盗链(迅雷等下载软件)

什么是下载盗链假设我们是一个B站,有些视频资源是可以提供给用户下载的.这时迅雷等其他下载软件,也提供下载该视频的服务, 但是迅雷很不厚道的,将我们的下载资源提供给他的用户,下载.占用我们的带宽来服务他的用户,这是绝对不可以忍了的. 使用来源判断根本不靠谱,只能防止一些小白站点的盗链,迅雷之类的下载工具完全无效,如果你是 nginx 的话,使用 secure link 完美解决这个问题,远离迅雷. 本文仅用于下载服务器,不适用于图片防盗链. 原理用户访问 down.php down.php