Python抓取远程文件获取真实文件名

用urllib下载远程文件并转存到hdfs服务器，在下载时，下载地址中不一定包含文件名，需要从连接信息中获取。

 1     file_url = request.form.get(‘file_url‘)
 2     fo = urllib.urlopen(file_url)
 3     blob = fo.read()
 4     file_size = len(blob)
 5     if fo.info().has_key(‘Content-Disposition‘):
 6         file_name = fo.info()[‘Content-Disposition‘].split(‘filename=‘)[1]
 7         file_name = file_name.replace(‘"‘, ‘‘).replace("‘", "")
 8         print ‘-in header‘
 9     else:
10         file_name= os.path.basename(file_url)
11
12     file_ext = get_file_ext(file_name.lower())
13     remark = request.form.get("remark", ‘‘)
14     # 存储到hdfs

原文地址：https://www.cnblogs.com/legendjslc/p/8652414.html

时间： 2024-10-03 18:25:54

Python抓取远程文件获取真实文件名的相关文章

下载远程（第三方服务器）文件、图片，保存到本地（服务器）的方法、保存抓取远程文件、图片

将一台服务器的文件.图片,保存(下载)到另外一台服务器进行保存的方法: 1 #region 图片下载 2 3 #region 图片下载[使用流.WebRequest进行保存] 4 /// <summary> 5 /// 图片下载[使用流.WebRequest进行保存] 6 /// </summary> 7 /// <param name="fileUrl">图片URL地址(例如:http://img.baidu.com/video/img/video

python抓取m3u8文件，并提取.ts文件合成视频

本节抓取手机app视频,charles抓包部分就不演示了,抓包内容如下: 可以直接抓取到.ts视频文件,但全都是视频片段,如果要抓全部的视频,就要找m3u8文件,里边有所有的视频路径,在拼接url前缀,就可以拿到正确的视频url了. 以下是代码部分: import requests import os,sys import re #读取m3u8文件并提取.ts文件路径 url="http://f1.thishs.com/578a7600fb83e8566227a90f3bd926b4/5E64C

PHP 抓取远程文件出错的解决方案

file_get_contents在某些情况下会出错.这样在运行中会时不时的出现上述错误,我也换过file_get_contents等其他函数都没用,在网上查阅后发现用CURL方法抓取不会出错 $url = "http://www.php100.com/logo.gif";$ch = curl_init();curl_setopt ($ch, CURLOPT_URL, $url);curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); curl_se

Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)

Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) 最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法. 一.用Python抓取网页基本方法: [python] view plaincopyprint? import urllib2,urllib url = 'http://www.baidu.com' req

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取

无比强大！Python抓取cssmoban网站的模版并下载

Python实现抓取http://www.cssmoban.com/cssthemes网站的模版并下载实现代码 # -*- coding: utf-8 -*- import urlparse import urllib2 import re import os import os.path URL='http://www.cssmoban.com/cssthemes' #全局超时设置 urllib2.socket.setdefaulttimeout(500) #根据url获取内容 def ge

房东要给我涨800房租，生气的我用Python抓取帝都几万套房源信息，我主动涨了1000。

老猫我在南五环租了一个80平两居室,租房合同马上到期,房东打电话问续租的事,想要加房租:我想现在国家正在也在抑制房价,房子价格没怎么涨,房租应该也不会涨,于是霸气拒绝了,以下是聊天记录:确认不续租之后,两三年没找过房的我上网搜索租房,没想到出来一坨自如,蛋壳,贝壳等中介网站:进去看看,各种房照非常漂亮,但是一看房租,想送给自己一首<凉凉>:附近房租居然比我当前房租高1000多RMB:自我安慰下,这些网站房源价格不是真实的,于是切换到我爱我家,链家等大中介平台,结果发现房租价格都差不多:心想这才

自动发送密码抓取远程日志用Shell脚本如何实现？

在linux系统中,如何用shell脚本抓取远程日志?分析线上的日志会有一个困境,机器太多,如果每台都登录上去看不太现实,但是下载下来更麻烦因为每台SCP都要求输入密码.于是我便写了一个自动抓取远程日志的脚本,实现在基本功能. 代码: #!/usr/bin/expect -f if { $argc !=1 && $argc !=2 } {send_user "没有输入远程日志文件名.\n"send_user "格式是:get.sh ${remote_log}

python抓取百度彩票的双色球数据

最近在学习<机器学习实战>这本书,在学习的过程中不免要自己去实践,写些练习.这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据.了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据.以下我就介绍一下自己的小程序. 大致思路如下找到相关url和其参数找出页面上你要抓取的数据的位置,也就是说这个数据在那些标签下将每页中学要的数据取下来按一定格式存放在自己本地需要的环境: pytho