通过脚本自动下载Esri会议材料

在Esri的官网上，可以下载到Esri参加或者举办的各类会议的材料。官方地址为：http://proceedings.esri.com/library/userconf/index.html。

针对某一会议，该网上往往提供会议材料清单表格，部分材料是提供下载的，例如PPT文档或者PDF文档。

以下脚本可用于辅助下载Esri Proceeding网站上的会议PPT，下载好的文档会自动以文档的标题重命名，这样方便检索使用。

制定下载后存放文档的本地文件夹，预先把包含会议材料清单表格的页面使用浏览器保存到本地。

# -*- coding:utf-8 -*-
from lxml import etree
from lxml.html import soupparser
import re
from os import path
import shutil
from os import rename
from urllib.request import Request
import urllib.request

try:
    rootpath = ‘D:/EsriPPT/‘
    f = open(‘D:/Recent Proceedings.html‘, ‘r‘, encoding="windows-1252", errors=‘ignore‘)
    t = ‘‘.join(f.readlines())
    parser = etree.XMLParser(encoding=‘gbk‘, dtd_validation=False, recover=True, ns_clean=True)
    tree = soupparser.fromstring(t)
    rows = tree.xpath(‘//table/tbody/tr‘)
    for r in rows:
        cols = r.xpath(‘td‘)
        for links in cols[1].iterchildren(tag=‘a‘):
            result = re.search(r‘dev_int_\d+\.pdf‘, links.get(‘href‘))
            if(result!=None):
                oldpath = rootpath + result.group(0)
                newpath = cols[0].text + ‘.pdf‘
                newpath = rootpath + newpath.replace(‘:‘, ‘_‘).replace(‘/‘, ‘‘).replace(‘?‘, ‘‘)
                # to check whether the original file has downloaded
                if path.exists(oldpath) and not path.exists(newpath):
                    rename(oldpath, newpath)
                else:
                    remote = ‘http://proceedings.esri.com/library/userconf/devsummit17/papers/‘ + result.group(0)
                    urllib.request.urlretrieve(remote, oldpath)
                    rename(oldpath, newpath)

finally:
    f.close()
    del tree

时间： 2024-10-10 01:51:12

通过脚本自动下载Esri会议材料的相关文章

利用python脚本自动下载ICML会议接受的文章

最近需要下载ICML会议2015年接受的最新的文章,但是到官网一看,那么多的文章,如果我一篇一篇点击下载的话,什么时候是个头呢?于是就想着用python脚本对文章的页面进行处理,得到相关文章的url,然后进行下载. 通过观察ICML会议的Accepted Papers发现,其的结构还是比较整齐的,其中我们需要的信息的代码片段如下: <div class="paper"> <p class="title">Approval Voting and

Python脚本自动下载小说

本人喜欢在网上看小说,一直使用的是小说下载阅读器,可以自动从网上下载想看的小说到本地,比较方便.最近在学习Python的爬虫,受此启发,突然就想到写一个爬取小说内容的脚本玩玩.于是,通过在逐浪上面分析源代码,找出结构特点之后,写了一个可以爬取逐浪上小说内容的脚本. 具体实现功能如下:输入小说目录页的url之后,脚本会自动分析目录页,提取小说的章节名和章节链接地址.然后再从章节链接地址逐个提取章节内容.现阶段只是将小说从第一章开始,每次提取一章内容,回车之后提取下一章内容.其他网站的结果可能有不同

[python] 1、python鼠标点击、移动事件应用——写一个自动下载百度音乐的程序

1.问题描述: 最近百度总爱做一些破坏用户信任度的事——文库金币变券.网盘限速,吓得我赶紧想办法把存在百度云音乐中的歌曲下载到本地. http://yinyueyun.baidu.com/ 可问题是云音乐中并没有批量下载,而上面我总共存了700多首音乐! 因此:有必要写一个脚本自动下载这些音乐了!!! 2.解决问题自动下载歌曲有两种方法: JS法模拟鼠标点击法由于考虑到JS法需要分析网页结构.寻找下载链接,工作量有点大,于是选择用模拟鼠标点击法! 在linux上我首先想到用python来做

bat脚本自动安装Jmeter&Jdk

本文主要介绍通过Bat脚本自动下载.自动安装.自动配置Jmeter&JDK! echo=1/*>nul&@cls @echo off :: 由于脚本内使用了bitsadmin下载器,故可能会被做病毒杀掉,若出现此类情况请关闭杀毒软件 :: 脚本更适合安装全新环境Jmeter&Jdk,其它环境也做了部分兼容,但可能兼容不完全 :: 若配置过程中出现下载问题,可手动准备相应工具至tools目录 :: 此脚本默认为配置X64 Windows操作系统,若需在32位操作系统配置此环境手

Shell 脚本笔记01-tftp服务器自动下载调试

由于工作上要反复从PC上交叉编译好应用程序,并通过tftp下载到ZYNQ板子上进行运行调试.重复敲命令过于麻烦,所以编写一个脚本实现自动下载,改权限和运行功能. 一.准备工作将ZYNQ7000开发板和主机端(PC或虚拟机)连接到同一网段. 主机端安装好tftpd-hpa服务器和xinet.d,启动运行 [email protected]:~$ sudo service xinetd restart #开启xinetd服务 [sudo] password for z: xinetd stop/w

windows bat脚本实现ftp自动下载删除

现在有一个需求就是把远程某个文件下面的图片,下载到本地,并且删除下载成功的的文件,而且远程目录下的那个图片会随时增加.假设一下如果所有的脚本都写好了,那么就需要调用windows上的计划任务定时执行脚本就ok了,Linux上利用cronjob 同样可以做到.大体的实现思路如下,当然了不止这一种方式. 在远程服务器上搭建ftp server ,例如这里在远程服务上的 images 作为下载目录.搭建ftp server 最简单的方式就是用FileZilla Server 这个工具去搭建,很方便,零

cdh hadoop 安装包自动下载脚本

cdh hadoop 安装包自动下载脚本下面的shell脚本用于自动下载cdh5.2.1的hadoop rpm包. 测试通过. #!/bin/bash # # @file # cdh5_rhel6_x64_cdh5.2.1-downloads.sh # # @date # 2014-12-18 # # @author # cheungmine # # @version # 0.0.1pre # # download all RPMS from: # -- http://archive.clou

AIX 用SHELL脚本自动FTP下载文件

用SHELL脚本自动FTP下载文件:kaiboss1:/weblogic/bboss> uname -xAIX kaiboss1 3315381580 3 5 00C59CB54C00kaiboss1:/weblogic/bboss> more ./memberupload/memberupload.shcd /weblogic/bboss/memberupload/fileftp -inv 10.1.140.123 <<!>memberfile.loguser ftp31

iOS开发进阶 - 使用shell脚本自动打包上传到fir.im上－b

用fir.im测试已经好长时间了,感觉每次打包上传都很麻烦,想着是不是可以用脚本自动打包,在网上搜了一下确实有,下面总结一下如何使用脚本自动打包上传到fir.im,以及打包过程中遇到的问题和解决办法相关资料和下载首先是打包脚本的下载地址,这个是我找到的比较全的一个,里面有很多不同功能的shell脚本,亲测好用,传送门:https://github.com/heyuan110/BashShell?spm=5176.100239.blogcont5028.4.kFcLtR 还有关于fir指令的一