python爬取图片简记

参考:https://blog.csdn.net/tanlangqie/article/details/79506543
 1 # -*- coding:utf-8 -*-
 2 import urllib
 3 import urllib.request
 4 import re
 5
 6 def getHtml(url):
 7     request = urllib.request.Request(url)
 8     response = urllib.request.urlopen(request)
 9     html = response.read()
10     return html
11
12 def getImg(html):
13     reg = ‘data-original="(.+?\.jpg)"‘
14     imgre = re.compile(reg)
15     imglist = re.findall(imgre, html.decode(‘utf-8‘))
16     localpath=‘G:/photo/‘
17     x = 1
18     for imgurl in imglist  :
19         urllib.request.urlretrieve(imgurl,localpath+‘%s.jpg‘ % x)
20         print(‘正在下载第%s张图片‘ % x)
21         x+=1
22         if x>20:
23             break
24     return None
25
26 html = getHtml("https://www.zhihu.com/question/27364360")
27 getImg(html)

原文地址:https://www.cnblogs.com/Traveller-Lee/p/8954483.html

时间: 2024-11-06 11:38:23

python爬取图片简记的相关文章

python——爬取图片(shutter图片网)

在本爬虫程序中共有三个模块: 1.爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 2.爬虫模块:包含三个小模块,URL管理器.网页下载器.网页解析器. (1)URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中取出一个待爬取的URL,传递给网页下载器. (2)网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器. (3)网页解析器:网页解析器解析传递的字符串,解析器不仅可以解析出需要爬取的数据,而且还可以解析出每一个网页指向其他网

python爬取图片

#coding=utf-8 import urllib2 import os import re count=0#计数君 for line in open("./imagenet1.synset.geturls"): imagename=str(count+1) print(imagename) try: url=urllib2.urlopen(line) data=url.read() with open("/opt/fish/"+imagename+"

python 爬取图片

获得图片链接,网上的图片都有唯一的url import urllib.request image_url='https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1569075968903&di=6e275342eb912831affe1c2f5511e05d&imgtype=0&src=http%3A%2F%2Fhbimg.b0.upaiyun.com%2F14c272157

分手后,小伙怒用Python爬取上万空姐照片,赢取校花选举大赛!

首先展示下Python爬取到的成果:   我做什么都要争第一,这次的校花投票选举大赛也不例外,虽然我是个男的......但是我看到了前女友竟然已经有三百多票排到第三名了,我怎么能眼睁睁的看着她优秀呢?我必须要让她排到前三除外,·不行,必须是前十开外!我想到一个办法就是用Python开发一个百度爬虫,爬取百度所有美女的照片,然后申请多个账号进行参赛.   其实比起Python爬取图片外,我对微信上的投票小程序也有所研究,已经有了Python实现微信上刷票脚本的思路,这个我下次再分享大家,这次先学习

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.        感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片 下面这部分Selenium代码的主要功能是:            1.先自动运行浏览器,并访问

python网络爬虫之使用scrapy爬取图片

在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存储起来.也是就是我们项目中test_spider.py中testSpider类的功能 2 项目从爬虫返回,进入到项目通道也就是pipelines中 3 在通道中,在第一步中获取到的图片url将被scrapy的调度器和下载器安排下载. 4 下载完成后,将返回一组列表,包括下载路径,源抓取地址和图片的校

python多线程爬取图片实例

今天试着把前面那个爬取图片的爬虫改成了多线程爬取,虽然最后可以爬取存储图片了,但仍存在一些问题.网址还是那个网址https://www.quanjing.com/category/1286521/1.html, 下面是代码,难点直接在后面注释了. # 多线程爬取,每个线程爬取一个页面 import requests import threading import queue from bs4 import BeautifulSoup import re import time string =

selenium+python 爬取网络图片(2) -- 百度

上一篇博文介绍了如何用selenium+python在诸如soso.谷歌.好搜等搜索引擎上爬取图片的方法,但是却没用提到百度,因为百度的情况比较特殊.首先,百度图片的数据更好,因为每幅图片都有"data-desc"描述可以作为图像很好的语义标签,此外基于百度较强的技术其查询搜索得到的图片相关性较高,后续人工筛选工作较少:其次,百度图片的数据不容易爬取,如果像前一篇文章中的方法取img标签的src值作为下载url,是下载不到图片的,得到的知识167B的非图像数据. 那么,如何爬取百度图片

selenium+python 爬取网络图片(1) -- soso、谷歌、好搜

做图像处理的朋友,都时常需要收集整理大量的图像数据集.做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务.为了用python完成这个任务,需要解决如下两个问题: 1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片. 2. 动态网站的内容往往是通过ajax异步加载,直接用python中urllib库read到的内容不完整,且需要的内容基本都是异步加载进来的,直接