网页资源下载器

一个简单的python程序，用于下载pdf/txt/ppt等网页资源下载。

import urllib
import urllib2
import re
import socket

#######################You may change here###############
baseurl = ‘##########‘  #请自行添加下载网页地址
format = ‘(pdf|txt|cc|ppt|pptx)‘ #下载格式，可自行添加
#########################################################

def downfunc(blocknum, blocksize, totalsize):
    ‘‘‘回调函数
    @blocknum:  已经下载的数据块
    @blocksize: 数据块的大小
    @totalsize: 下载文件的大小
    ‘‘‘
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
        print "下载完成^^~"
    else:
        print "已下载%.2f%%......"% percent

def download(downurl, localFileName=None):
    #m = re.search(‘(\w+.pdf)‘,downurl)
    m = re.search(‘(\w+.%s)‘ % format,downurl)
    if localFileName == None:
        localFileName = m.group(0)

    print ("正在下载" + localFileName)

    try:
        urllib.urlretrieve(downurl, localFileName,downfunc)
    except socket.timeout:
        print "下载超时"

socket.setdefaulttimeout(30)

#打开页面
page = urllib2.urlopen(baseurl) 

# 读取包含HTML源码内容的页面信息
page_inform = page.read() 

# 获取资源列表
#list_of_res = re.findall(r‘href=.*"(.*\.pdf)‘, page_inform)
list_of_res = re.findall(r‘href=.*"(.*\.%s)‘ % format, page_inform)

# 去除重复的资源
list_of_res = list(set(list_of_res)) 

# 根据资源列表逐个下载
for res in list_of_res:
    downurl = res[0]
    if downurl[0:4] != ‘http‘:
        downurl = baseurl+downurl
    download(downurl)

程序下载：

网页资源下载器

时间： 2024-11-05 18:58:47

网页资源下载器的相关文章

网页资源下载 -- 水浒传全集

比如我要下载1998年央视版-水浒传全集 $ curl -H "Accept-Encoding: gzip" http://www.ed2000.com/ShowFile-555292.html | gunzip | sed -n '/href=/p' | awk -F "href=\"" '{print $2}' |awk -F \" '{print $1}' | grep ed2k [email protected]:~/linux_c$

用 python 实现一个多线程网页下载器

今天上来分享一下昨天实现的一个多线程网页下载器. 这是一个有着真实需求的实现,我的用途是拿它来通过 HTTP 方式向服务器提交游戏数据.把它放上来也是想大家帮忙挑刺,找找 bug,让它工作得更好. keywords:python,http,multi-threads,thread,threading,httplib,urllib,urllib2,Queue,http pool,httppool 废话少说,上源码: 1 # -*- coding:utf-8 -*- 2 import urllib,

第5章网页下载器和urllib2模块

网页下载器:将互联网上URL对应的网页下载到本地的工具通过网页下载器将互联网中的url网页,存储到本地或内存字符串 python有哪几种网页下载器? 1.urllib2 python官方基础模块 2.requests python第三方包更强大 urllib2下载网页方法1:最简洁方法 url-------------------------->urllib2.urlopen(url) 代码: import urllib2 /#直接请求 response = urllib2.urlopn

爬虫学习——网页下载器和urllib2模块

什么是网页下载器? 一.网页下载器是爬虫的核心组件二.常用的python网页下载器有urlilib2基础模块和requests第三方插件两种 urllib2支持功能:1.支持直接url下载:2.支持向网页直接输入的数据:3.支持需要登陆网页的cookie处理:4.需要代理访问的代理处理三.urllib2的三种下载方法方法一.直接下载法相应代码如下: #-*-coding:utf-8-*- #调用urllib2模块 import urllib2 #直接请求 response=urllib2

《Android Studio开发实战从零基础到App上线》资源下载和内容勘误

http://blog.csdn.net/aqi00/article/details/72907534 http://blog.csdn.net/aqi00/article/details/73065392 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 资源下载下面是<Android Studio开发实战从零基础到App上线>一书用到的工具和代码资源:1.本书使用的Android Studio版本为2.2.3,因为Android官网现在不提供该版本的下载,所以博主

python爬虫实战——5分钟做个图片自动下载器

python爬虫实战--图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要,不要告诉我你老师没教你) 分析网页源代码,配合F12(没有F12那么乱的网页源代码,你想看死我?) 编写正则表达式或者XPath表达式(就是前面说的那个神器) 正式编写python爬虫代码效果运行: 恩,让我输入关键词,让我想想,输入什么好呢?好像有点暴露爱好了. 回车好像开始下载了!好赞!,我看

整站下载器

超级网站整站对比其他各类网站下载工具,找到适合你的网站下载工具! 有的人利用整站下载工具下载网站到本地进行慢慢的欣赏,有的人利用全站下载工具创建垃圾站.不管你是出于什么样的目的,下面这些工具软件你可以会需要. 1. 超级网站整站下载器超级网站整站下载器破解版现在采用了全新的挖掘引擎,获取内容更精准,更人性化,分析下载素材文件,实现模板下载的软件,可以帮助用户快速的下载动态网站数据,静态页面.cms模板.源码.独的mysql.mssql数据库文件.后台.百宝箱.关键字工具.seo流量精灵.网页编

百度网盘下载神器度盘下载器

最近比较忙,主要在做一个接入支付宝健康果的一个项目,也没有更新文章,今天主要介绍一个度盘下载器 ,主要是用来加速百度网盘的下载前段时间买了慕课网的java企业级电商项目架构演进之路Tomcat集群和Redis分布式Java秒杀系统方案优化高性能高并发实战搜房网三个套视频教程,如果是百度云盘的客户端下载到本地就很慢了,大概就100KB吧,于是网上去找解决方法最开始找到的方式是chrome百度云盘插件,测试过可以使用,主要是要提取资源的aria2链接,现在网上的插件都会有点问题,要设置一下,把打

Pyton学习路线2019升级版（课程大纲+视频教程+网盘资源下载）

2019最新Pyton全栈+人工智能学习路线升级版全面涵盖前端.后端.爬虫.数据挖掘.人工智能等课程(课程大纲+视频教程+网盘资源下载)! 学习路线四大亮点: 1.人工智能三大主流框架全覆盖 2.贯通前端后端实用技术 3.强化人工智能项目实战能力 4.高度还原企业级数据挖掘分析场景 Python前景分析: Python以其简洁优美.功能强大.高效率的先天优势成为企业新宠 ,此外,国内计算机教育也越来越重视Python在编程中的地位. 1.教育大省北京和山东确定将Python编程基础纳入信息技术