python 图片抓取

1、图片地址为下载地址访问图片地址可直接下载的

  #!/usr/bin/env python
  # -*- coding: utf-8 -*-
  import urllib2
  import json
  import requests
  import os
  import sys
  from time import sleep
  reload(sys)
  sys.setdefaultencoding("utf-8")
  def uploadreColorImg():
  file_recolorJson = "/home/siyin/Downloads/LibraryMD5.json"
  recolor_url = "basicurl"
  savePath = "/home/siyin/recolor0621/"
  with open(file_recolorJson) as f:
  j = json.loads(f.read())
  books = j.get("Books")
  for item in books:
  count = 0
  category = item
  os.mkdir(savePath+category,0775)
  os.mkdir(savePath + category+"/c", 0775)
  imglist = books.get(item)
  for elem in imglist:
  contents = imglist.get(elem).get("Contents")
  for ele in contents :
  count = count + 1
  art = contents.get("Art")
  artUrl = recolor_url + art
  try:
  print artUrl
  r_art = requests.get(artUrl)
  print r_art.status_code
  if r_art.status_code == 200:
  with open(savePath+category+"/"+art+".pdf","wb") as output:
  for chunk in r_art:
  output.write(chunk)
  except:
  sleep(5)
  continue
  finally:
  output.close()
  print count

  if __name__ == "__main__":

  uploadreColorImg()

2、url是图片链接

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import json
import requests
import os
import sys
import time
import urllib
reload(sys)
sys.setdefaultencoding("utf-8")

def getAndSaveImg(urlParam,save_absPath):

urllib.urlretrieve(urlParam,save_absPath)

def uploadColorImg():

file_json = "/home/siyin/colorfy/colorfy_json.json"
color_url = "http://cdn.colorfy.fungames-forfree.com/v2/android/galleries/images/"
savePath = "/home/siyin/colorfy/"
with open(file_json) as f:
j = json.loads(f.read())
galleries = j.get("galleries")
for gallery in galleries:
galleryId = gallery.get("id")
os.mkdir(savePath+galleryId,0775)
volumes = gallery.get("volumes")
if volumes is not None:
for volume in volumes:
volumeId = volume.get("id")
paintings = volume.get("paintings")
for painting in paintings:
img_path = painting.get("img_path")
img_url = color_url + img_path + ‘.png‘
save_absPath = savePath + galleryId + "/" + img_path + ‘.png‘
try:
r_img = requests.get(img_url)
if r_img.status_code == 200:
getAndSaveImg(img_url,save_absPath)
else:
print "error"
except:
time.sleep(5)
continue
print img_path

if __name__ == "__main__":
uploadColorImg()

时间: 2024-10-13 08:10:53

python 图片抓取的相关文章

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

[python应用]python简单图片抓取

前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import Popen,PIPE 5 from bs4 import BeautifulSoup as bs 6 import urllib 7 import base64 8 9 10 queue=queue.Queue() 11 12 class Jiandan(threading.Thread): 13 d

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/    0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

一个极其简洁的Python网页抓取程序

paip. 混合编程的实现resin4 (自带Quercus ) 配置 php 环境 #---混合编程的类型 1.代码inline 方式 2.使用库/api  解析方式. #----配置resin 支持php resin4默认自动支持php.. 也能手动配置了.web.xml加php的servlet解析..参考Quercus让你的PHP开心在Servlet容器奔跑 #----配置 php.ini路线 运行t.php,,看见 Configuration File (php.ini) Path =>

python爬虫抓取站长之家IP库,仅供练习用!

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

简单的图片抓取demo

原文:简单的图片抓取demo 源代码下载地址:http://www.zuidaima.com/share/1568741405854720.htm 昨天看到同学在一张张右键图片,感觉好麻烦,今天上午就查了一下资料,弄了个图片抓取器. 用到jsoup和 io包,我放在压缩文件里了. 新手刚刚弄,可能会有考虑不好的地方,欢迎大家多多指教. 主要代码: 01 //遍历保存 02 Iterator<String> i = imgSrcSet.iterator(); 03             whi

python 处理抓取网页乱码

python 处理抓取网页乱码问题一招鲜 相信用python的人一定在抓取网页时,被编码问题弄晕过一阵 前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2.open(url).read()  时,打印到控制台始终出现乱码. 一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题 这里有两个问题,第一个你要知道网页的编码格式是utf-8     第二你得确定你的系统是gb2312的,

arpspoof+driftnet+ ARP欺骗简单图片抓取

arpspoof+driftnet+ ARP欺骗简单图片抓取 driftnet是一款简单而使用的图片捕获工具,可以很方便的在网络数据包中抓取图片.该工具可以实时和离线捕获指定数据包中是图片 环境 受害ip:192.168.228.130 攻击ip:192.168.228.129 网关:192.168.228.2 条件 1,开启或关闭IP转发 2,向被攻击机器发送arp欺骗数据包,冒充网关 3,向网关发送arp数据欺骗网关,冒充被攻击机器 4,运行driftnet截取图片 开启IP转发功能 cat