python 爬取图片

  1. 获得图片链接,网上的图片都有唯一的url

    import urllib.request
    image_url=‘https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1569075968903&di=6e275342eb912831affe1c2f5511e05d&imgtype=0&src=http%3A%2F%2Fhbimg.b0.upaiyun.com%2F14c272157c7345f33bab613327d7ee11a8b2c5344ea1a-rSck09_fw658‘
    # 方法一:
    urllib.request.urlretrieve(image_url,‘chun.jpg‘)
    # 方法二:
    response=urllib.request.urlopen(image_url)
    file=open(r‘E:\qing.jpg‘,‘wb‘)# 二进制格式,wb二进制格式写入
    file.write(response.read())
    file.close()#方法三:
    with open(‘qing.jpg‘,‘wb‘) as fp:
        fp.write(response.read())
  2. 熟悉urllib的各类函数的使用

    import urllib.request
    url=‘http://www.baidu.com‘
    response=urllib.request.urlopen(url=url)
    print(response.readlines())
    print(dict(response.getheaders()))
    print(response.read().decode())
    with open(‘baidu.html‘,‘w‘,encoding=‘utf8‘)as fp:
        fp.write(response.read().decode())
  3. 图片获取步骤:
  • 得到url
  • response=urllib.request.urlopen(url)打开获得的url
  • response.read().decode()# decode()将读出的信息以二进制字节形式打开,
  • 将获得的文件输出,有方法一,方法二、方法三可以直接进行传数
  • 方法一:

    with open(r‘E:\qing.jpg‘,‘wb‘)  as fp:# wb以二进制字节进行读写
        fp.write(response.read())
  • 方法二:

    file=open(r‘E:\qing.jpg‘,‘wb‘)
    file.write(url)
    file.close()

原文地址:https://www.cnblogs.com/ybl20000418/p/11564425.html

时间: 2024-10-31 16:42:14

python 爬取图片的相关文章

python——爬取图片(shutter图片网)

在本爬虫程序中共有三个模块: 1.爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 2.爬虫模块:包含三个小模块,URL管理器.网页下载器.网页解析器. (1)URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中取出一个待爬取的URL,传递给网页下载器. (2)网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器. (3)网页解析器:网页解析器解析传递的字符串,解析器不仅可以解析出需要爬取的数据,而且还可以解析出每一个网页指向其他网

python爬取图片

#coding=utf-8 import urllib2 import os import re count=0#计数君 for line in open("./imagenet1.synset.geturls"): imagename=str(count+1) print(imagename) try: url=urllib2.urlopen(line) data=url.read() with open("/opt/fish/"+imagename+"

python爬取图片简记

参考:https://blog.csdn.net/tanlangqie/article/details/79506543 1 # -*- coding:utf-8 -*- 2 import urllib 3 import urllib.request 4 import re 5 6 def getHtml(url): 7 request = urllib.request.Request(url) 8 response = urllib.request.urlopen(request) 9 htm

分手后,小伙怒用Python爬取上万空姐照片,赢取校花选举大赛!

首先展示下Python爬取到的成果:   我做什么都要争第一,这次的校花投票选举大赛也不例外,虽然我是个男的......但是我看到了前女友竟然已经有三百多票排到第三名了,我怎么能眼睁睁的看着她优秀呢?我必须要让她排到前三除外,·不行,必须是前十开外!我想到一个办法就是用Python开发一个百度爬虫,爬取百度所有美女的照片,然后申请多个账号进行参赛.   其实比起Python爬取图片外,我对微信上的投票小程序也有所研究,已经有了Python实现微信上刷票脚本的思路,这个我下次再分享大家,这次先学习

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.        感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片 下面这部分Selenium代码的主要功能是:            1.先自动运行浏览器,并访问

python网络爬虫之使用scrapy爬取图片

在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存储起来.也是就是我们项目中test_spider.py中testSpider类的功能 2 项目从爬虫返回,进入到项目通道也就是pipelines中 3 在通道中,在第一步中获取到的图片url将被scrapy的调度器和下载器安排下载. 4 下载完成后,将返回一组列表,包括下载路径,源抓取地址和图片的校

python多线程爬取图片实例

今天试着把前面那个爬取图片的爬虫改成了多线程爬取,虽然最后可以爬取存储图片了,但仍存在一些问题.网址还是那个网址https://www.quanjing.com/category/1286521/1.html, 下面是代码,难点直接在后面注释了. # 多线程爬取,每个线程爬取一个页面 import requests import threading import queue from bs4 import BeautifulSoup import re import time string =

selenium+python 爬取网络图片(2) -- 百度

上一篇博文介绍了如何用selenium+python在诸如soso.谷歌.好搜等搜索引擎上爬取图片的方法,但是却没用提到百度,因为百度的情况比较特殊.首先,百度图片的数据更好,因为每幅图片都有"data-desc"描述可以作为图像很好的语义标签,此外基于百度较强的技术其查询搜索得到的图片相关性较高,后续人工筛选工作较少:其次,百度图片的数据不容易爬取,如果像前一篇文章中的方法取img标签的src值作为下载url,是下载不到图片的,得到的知识167B的非图像数据. 那么,如何爬取百度图片

selenium+python 爬取网络图片(1) -- soso、谷歌、好搜

做图像处理的朋友,都时常需要收集整理大量的图像数据集.做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务.为了用python完成这个任务,需要解决如下两个问题: 1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片. 2. 动态网站的内容往往是通过ajax异步加载,直接用python中urllib库read到的内容不完整,且需要的内容基本都是异步加载进来的,直接