python爬取网页图片

在Python中使用正则表达式,一个小小的爬虫,抓取百科词条网页的jpg图片。下面就是我的代码,作为参考:

#coding=utf-8
# __author__ = ‘Hinfa‘
import re
import os
from urllib import request as req

url=‘https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin‘
path=‘Test//百科广州图片2‘
os.mkdir(path)
fo=open(path+‘//filecatalog.txt‘,‘w+‘)
fo.write(‘爬取jpg目录:‘)
page=req.urlopen(url)
html=page.read().decode(‘utf-8‘)
jpgre=re.compile(r‘https.*?\.jpg‘)
jpglist=re.findall(jpgre,html)
i=0
for jpg in jpglist:
    jpg=re.sub(r‘\\\/‘,‘/‘,jpg)
    print(jpg)
    filepath=path+‘//%d.jpg‘%i
    fo.write(‘\n‘+jpg)
    req.urlretrieve(jpg,filepath)
    i+=1
fo.write(‘\n‘+‘爬取共计‘+str(i)+‘个‘)
fo.flush()
fo.close()

程序运行结果:

然后打开目录文件里生成的filecatalog.txt文件,爬取的内容如下:

目录地址下载的图片:

第一次爬虫,很兴奋,也觉得很神奇:-)

时间: 2024-10-13 23:51:52

python爬取网页图片的相关文章

一个咸鱼的Python爬虫之路(三):爬取网页图片

学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图.所以我找了这个网站http://www.ivsky.com 网站里面有很多的图集,我们就找你的名字这个图集来爬取 http://www.ivsky.com/bizhi/yourname_v39947/ 来看看这个页面的源代码: 可以看到我们想抓取的图片信息在<li> 里面然后图片地址在img里面那么我们这里可以用Beautifu

Python爬取网页的三种方法

# Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python爬取网页时返回http状态码HTTP Error 418

问题:urllib.error.HTTPError: HTTP Error 418: 问题描述:当我使用Python的request爬取网页时返回了http状态码为418, 错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I'm a teapotThe HTTP 418 I'm a teapot client error response code indicates that the server refuses to brew coffee becaus

python爬取网页数据

python时间戳 将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) #转为年-月-日形式 otherStyleTime = time.strftime("%Y-%m-%d ", timeArray) print(otherStyleTime) python爬

python爬虫初学之:爬取网页图片

#!/usr/bin/env python3.5 # -*-coding:utf-8 -*- """ 作者:MR RaoJL 日期:'Sun Dec 25 12:28:08 2016' 用途:爬 www.aitaotu.com/guonei 网站的图片地址 运行环境:Python3.5(widows或linux都可以)主要在linux下测试的 现有的问题:爬取速度太慢 初学者,问题估计太多 """ from itertools import ch

Python3批量爬取网页图片

所谓爬取其实就是获取链接的内容保存到本地.所以爬之前需要先知道要爬的链接是什么. 要爬取的页面是这个:http://findicons.com/pack/2787/beautiful_flat_icons 里面有很多不错的图标,目标就是把这些文件图片爬下来,保存成本地图片. 用python3怎么做呢? 第一步:获取要爬取的母网页的内容 import urllib.request import re url = "http://findicons.com/pack/2787/beautiful_f

用Python爬取网页上的小说,让你从此告别书荒!

人生苦短,我用Python.有道爱看小说的小伙伴们,在看小说的期间总会遇到那么一段书荒期,在这段期间想看书却找不到,要么就是要VIP,要么就是下载不了.所以学会爬取网站上的小说是很有必要的,今天就以爬取笔趣阁小说为例,进行网页上小说的爬取.首先当我们打开笔趣阁的网页时,我们会看到很多的小说列表,如下图所示: ? 就拿爬取图上所示的小说来说,我们要进行以下的几个步骤: 爬取小说首先要构建请求表头: ? 然后我们的获取下载链接: ? 接下来我们进行文章内容的爬取: ? 最后我们将爬取来的小说写入到文

python爬取网页遇到521的处理方法

在网页中爬取数据时遇到status code: 521.参考: https://blog.csdn.net/fm345689/article/details/84980340 https://zhuanlan.zhihu.com/p/25957793 导入execjs库.PyV8仅支持到Python 2.7,不支持Python 3.7. 1 # -*- coding: utf-8 -*- 2 3 import execjs 4 import re 5 import requests_html 6