python3 爬取图片

#coding=utf-8import urllib.requestimport re

def getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return html

def getImg(html):    html = html.decode(‘utf-8‘)    reg = r‘src="(.+?\.jpg)" pic_ext‘    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        urllib.request.urlretrieve(imgurl,‘%s.jpg‘ % x)        x+=1

html = getHtml("https://tieba.baidu.com/p/2460150866")print (getImg(html))
时间: 2024-12-10 15:00:10

python3 爬取图片的相关文章

python3爬取女神图片,破解盗链问题

title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true 前言 其实,抓取图片和抓取小说内容没有任何本质的区别,步骤都是一样的. 但是图片读取的时候,会遇到一个盗链问题.这个问题是花的解决时间最长的. 环境 语言: python3 操作系统: mac 10.12.16 自定义工具包:soup_tool 其依赖工具如下: from urllib import

爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法

一 .scrapy整体框架 1.1 scrapy框架图 1.2 scrapy框架各结构解析 item:保存抓取的内容 spider:定义抓取内容的规则,也是我们主要编辑的文件 pipelines:管道作用,用来定义如何过滤.存储等功能(比如导出到csv或者mysql等功能) settings:配置例如ITEM_PIPELINES .图片存储位置等等功能 middlewares:下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的respo

Python3爬取今日头条有关《人民的名义》文章

Python3爬取今日头条有关<人民的名义>文章 最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的. 首先,我们先打开头条的网页版,在右上角搜索框输入关键词,通过chrome调试工具,我们定位到头条的search栏调用的的API为: http://www.toutiao.com/search_content/?offset=0&format=json

python网络爬虫之使用scrapy爬取图片

在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存储起来.也是就是我们项目中test_spider.py中testSpider类的功能 2 项目从爬虫返回,进入到项目通道也就是pipelines中 3 在通道中,在第一步中获取到的图片url将被scrapy的调度器和下载器安排下载. 4 下载完成后,将返回一组列表,包括下载路径,源抓取地址和图片的校

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.        感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片 下面这部分Selenium代码的主要功能是:            1.先自动运行浏览器,并访问

python3爬取网页

爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com'print1.import urllib.request 'wd''python''opt-webpage''on''ie''gbk'GET和POST请求的不同之处是POST请求通常有"副作用" 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)

Java jsoup爬取图片

jsoup爬取百度瀑布流图片 是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流. 以前有写过用Java进行百度图片的抓取,但只能抓取到第一二页,本博文则对此问题进行了深入研究,提出了另外一种思路解决问题.我的思路是这样的:以前人们总认为既然百度瀑布流是采用JavaScript进行异步加载的,那么爬取图片至少要有一个模拟浏览器,比如Java领域中的无界面浏览器工具HtmlUnit,但后来我发现其实Jsoup也是可以的,只

urllib2爬取图片成功之后不能打开

经过8个小时的摸索,终于决定写下此随笔! 初学爬虫,准备爬取百度美女吧的图片,爬取图片之后发现打不开,上代码: import urllib import urllib2 from lxml import etree def loadPage(url): """ 作用:根据url发送请求,获取响应文件 url:需要爬取的url地址 """ print('正在下载' ) ua_headers = { "User-Agent": &

scrapy爬虫系列之三--爬取图片保存到本地及日志的基本用法

功能点:如何爬取图片,并保存到本地 爬取网站:斗鱼主播 完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py import scrapy import json from Douyu.items import DouyuItem class DouyuSpider(scrapy.Spider): name = 'douyu' allowed_domains = ['douyucdn.cn'] base_url