requests实践02_下载斗图拉最新表情包

下载斗图拉最新表情包

要爬取的目标所在网址：http://www.doutula.com/photo/list/?page=1
需要用到的第三方库：requests(用于请求图片链接得到图片内容)
一点点正则表达式的应用：(.*?):在代码中用来匹配图片链接地址，(.*):用来匹配图片对应的名称更多的正则表达式使用参见正则表达式
re模块的使用，其中用到re.findall(‘匹配规则‘,字符串),将符合匹配规则从整个字符串从找出来，放在一个新的列表中，并返回这个列表(list)，更多re模块使用参见菜鸟教程-Python正则表达式

详细代码

# !usr/bin/env/python
# -*- coding:utf-8 -*-
"""
time: 2020/02/01 12:37
author: Tceo1
OS: windows10
"""
import re
import requests

# url地址：http://www.doutula.com/photo/list/ 有页数之后：http://www.doutula.com/photo/list/?page=2
url = "http://www.doutula.com/photo/list/?page=1"
response = requests.get(url)  # 返回一个响应类型
m = r'data-original="(.*?)" alt="(.*)" class'
# 查找符合的图片url，与图片名称
result_list = re.findall(m, response.text)
print(result_list)
for image in result_list:
    image_url = image[0]
    image_name = image[1]
    # 通过切片获取到后缀名 如 .jpg
    image_type = image[0][-4:]
    # 请求图片url, 返回二进制响应
    image_content = requests.get(image_url).content
    save_path = r'E:/image/'
    with open(save_path + image_name + image_type, 'wb') as f:
        # 将二进制响应写入图片
        f.write(image_content)
print("over")

代码地址：https://github.com/Tceo1/scriptTools/blob/master/dtl.py

最后

感谢那些给予我帮助的人！

原文地址：https://www.cnblogs.com/thloveyl/p/12248334.html

时间： 2024-11-11 19:38:21

requests实践02_下载斗图拉最新表情包的相关文章

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

用python爬取 20w 表情包之后，感叹我族人是多么强大！

是这样的有一次想要斗图配图就在网上搜索表情包然后发现了一个表情巨多的网站不小心动起了邪念产生了兴趣那就把它们存下来吧用 requests 请求了一下发现这个网站没有做反爬发现这里有 4k+ 的页面简单的切换一下页面可以发现第一页的链接是这样的 https://fabiaoqing.com/biaoqing/lists/page/1.html 所以以此类推构建一下所有url _url = 'https://fabiaoqing.com/biaoqing/lists/p

自从会了Python在群里斗图就没输过，Python批量下载表情包！

导语最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址:

spider_爬取斗图啦所有表情包（图片保存）

"""爬取斗图吧里面的所有表情包知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数注:该案例主

表情包的同步异步下载

同步下载 from lxml import etree import requests from urllib import request #保存图片 import os import re def parse_page(url): headers = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/5

如何下载并安装最新版本的 OPatch

1.登陆mos站点下载最新版本的 OPatch补丁,这里以p6880880_102000_Linux-x86-64.zip补丁为例. 2.上传补丁至服务器,并移动补丁至数据库软件安装目录. #mv p6880880_102000_Linux-x86-64.zip $ORACLE_HOME 3.切换用户至oracle用户,进入$ORACLE_HOME安装补丁. [[email protected] ~]$ cd /home/oracle/orahome/ [[email protected] or

Python编程从入门到实践 PDF 下载

网盘下载:Python编程从入门到实践 PDF 下载 – 易分享电子书PDF资源网作者: [美]埃里克·马瑟斯出版社: 人民邮电出版社副标题: 从入门到实践原作名: Python Crash Course 译者: 袁国忠出版年: 2016-7-1 页数: 459 定价: CNY 89.00 装帧: 平装内容简介 · · · · · · 本书是一本针对所有层次的Python 读者而作的Python 入门书.全书分两部分:第一部分介绍用Python 编程所必须了解的基本概念,包括mat

【PDF下载】Python编程从入门到实践 PDF 下载

Requests实践详解

Requests是什么 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作.(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库. 默认安装好python之后,是没有