下载斗图拉最新表情包
- 要爬取的目标所在网址:http://www.doutula.com/photo/list/?page=1
- 需要用到的第三方库:requests(用于请求图片链接得到图片内容)
- 一点点正则表达式的应用:
(.*?):在代码中用来匹配图片链接地址,(.*):用来匹配图片对应的名称
更多的正则表达式使用参见正则表达式 re模块的使用,其中用到re.findall(‘匹配规则‘,字符串),将符合匹配规则从整个字符串从找出来,放在一个新的列表中,并返回这个列表(list)
,更多re模块使用
参见菜鸟教程-Python正则表达式- 详细代码
# !usr/bin/env/python # -*- coding:utf-8 -*- """ time: 2020/02/01 12:37 author: Tceo1 OS: windows10 """ import re import requests # url地址:http://www.doutula.com/photo/list/ 有页数之后:http://www.doutula.com/photo/list/?page=2 url = "http://www.doutula.com/photo/list/?page=1" response = requests.get(url) # 返回一个响应类型 m = r'data-original="(.*?)" alt="(.*)" class' # 查找符合的图片url,与图片名称 result_list = re.findall(m, response.text) print(result_list) for image in result_list: image_url = image[0] image_name = image[1] # 通过切片获取到后缀名 如 .jpg image_type = image[0][-4:] # 请求图片url, 返回二进制响应 image_content = requests.get(image_url).content save_path = r'E:/image/' with open(save_path + image_name + image_type, 'wb') as f: # 将二进制响应写入图片 f.write(image_content) print("over")
- 代码地址:https://github.com/Tceo1/scriptTools/blob/master/dtl.py
最后
感谢那些给予我帮助的人!
原文地址:https://www.cnblogs.com/thloveyl/p/12248334.html
时间: 2024-11-11 19:38:21