网页资源下载器

一个简单的python程序,用于下载pdf/txt/ppt等网页资源下载。

import urllib
import urllib2
import re
import socket

#######################You may change here###############
baseurl = ‘##########‘  #请自行添加下载网页地址
format = ‘(pdf|txt|cc|ppt|pptx)‘ #下载格式,可自行添加
#########################################################

def downfunc(blocknum, blocksize, totalsize):
    ‘‘‘回调函数
    @blocknum:  已经下载的数据块
    @blocksize: 数据块的大小
    @totalsize: 下载文件的大小
    ‘‘‘
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
        print "下载完成^^~"
    else:
        print "已下载%.2f%%......"% percent

def download(downurl, localFileName=None):
    #m = re.search(‘(\w+.pdf)‘,downurl)
    m = re.search(‘(\w+.%s)‘ % format,downurl)
    if localFileName == None:
        localFileName = m.group(0)

    print ("正在下载" + localFileName)

    try:
        urllib.urlretrieve(downurl, localFileName,downfunc)
    except socket.timeout:
        print "下载超时"

socket.setdefaulttimeout(30)

#打开页面
page = urllib2.urlopen(baseurl) 

# 读取包含HTML源码内容的页面信息
page_inform = page.read() 

# 获取资源列表
#list_of_res = re.findall(r‘href=.*"(.*\.pdf)‘, page_inform)
list_of_res = re.findall(r‘href=.*"(.*\.%s)‘ % format, page_inform)

# 去除重复的资源
list_of_res = list(set(list_of_res)) 

# 根据资源列表逐个下载
for res in list_of_res:
    downurl = res[0]
    if downurl[0:4] != ‘http‘:
        downurl = baseurl+downurl
    download(downurl)

程序下载:

网页资源下载器

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-05 18:58:47

网页资源下载器的相关文章

网页资源下载 -- 水浒传全集

比如我要下载1998年央视版-水浒传全集 $ curl -H "Accept-Encoding: gzip" http://www.ed2000.com/ShowFile-555292.html  | gunzip  | sed -n '/href=/p' | awk -F "href=\"" '{print $2}' |awk -F \" '{print $1}' | grep ed2k [email protected]:~/linux_c$

用 python 实现一个多线程网页下载器

今天上来分享一下昨天实现的一个多线程网页下载器. 这是一个有着真实需求的实现,我的用途是拿它来通过 HTTP 方式向服务器提交游戏数据.把它放上来也是想大家帮忙挑刺,找找 bug,让它工作得更好. keywords:python,http,multi-threads,thread,threading,httplib,urllib,urllib2,Queue,http pool,httppool 废话少说,上源码: 1 # -*- coding:utf-8 -*- 2 import urllib,

第5章 网页下载器和urllib2模块

网页下载器:将互联网上URL对应的网页下载到本地的工具 通过网页下载器将互联网中的url网页,存储到本地或内存字符串 python有哪几种网页下载器? 1.urllib2  python官方基础模块 2.requests   python第三方包更强大 urllib2下载网页方法1:最简洁方法 url-------------------------->urllib2.urlopen(url) 代码: import urllib2 /#直接请求 response = urllib2.urlopn

爬虫学习——网页下载器和urllib2模块

什么是网页下载器? 一.网页下载器是爬虫的核心组件 二.常用的python网页下载器有urlilib2基础模块和requests第三方插件两种 urllib2支持功能:1.支持直接url下载:2.支持向网页直接输入的数据:3.支持需要登陆网页的cookie处理:4.需要代理访问的代理处理 三.urllib2的三种下载方法 方法一.直接下载法 相应代码如下: #-*-coding:utf-8-*- #调用urllib2模块 import urllib2 #直接请求 response=urllib2

《Android Studio开发实战 从零基础到App上线》资源下载和内容勘误

http://blog.csdn.net/aqi00/article/details/72907534 http://blog.csdn.net/aqi00/article/details/73065392 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 资源下载 下面是<Android Studio开发实战 从零基础到App上线>一书用到的工具和代码资源:1.本书使用的Android Studio版本为2.2.3,因为Android官网现在不提供该版本的下载,所以博主

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码 效果 运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车 好像开始下载了!好赞!,我看

整站下载器

超级网站整站对比其他各类网站下载工具,找到适合你的网站下载工具! 有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. 1. 超级网站整站下载器 超级网站整站下载器破解版现在采用了全新的挖掘引擎,获取内容更精准,更人性化,分析下载素材文件,实现模板下载的软件,可以帮助用户快速的下载动态网站数据,静态页面.cms模板.源码.独的mysql.mssql数据库文件.后台.百宝箱.关键字工具.seo流量精灵.网页编

百度网盘下载神器度盘下载器

最近比较忙,主要在做一个接入支付宝健康果的一个项目,也没有更新文章,今天主要介绍一个度盘下载器 ,主要是用来加速百度网盘的下载 前段时间买了慕课网的java企业级电商项目架构演进之路Tomcat集群和Redis分布式Java秒杀系统方案优化 高性能高并发实战搜房网三个套视频教程,如果是百度云盘的客户端下载到本地就很慢了,大概就100KB吧,于是网上去找解决方法最开始找到的方式是chrome百度云盘插件,测试过可以使用,主要是要提取资源的aria2链接,现在网上的插件都会有点问题,要设置一下,把打

Pyton学习路线2019升级版(课程大纲+视频教程+网盘资源下载)

2019最新Pyton全栈+人工智能学习路线升级版 全面涵盖前端.后端.爬虫.数据挖掘.人工智能等课程(课程大纲+视频教程+网盘资源下载)! 学习路线四大亮点: 1.人工智能三大主流框架全覆盖 2.贯通前端后端实用技术 3.强化人工智能项目实战能力 4.高度还原企业级数据挖掘分析场景 Python前景分析: Python以其简洁优美.功能强大.高效率的先天优势成为企业新宠 ,此外,国内计算机教育也越来越重视Python在编程中的地位. 1.教育大省北京和山东确定将Python编程基础纳入信息技术