requests实践02_下载斗图拉最新表情包

下载斗图拉最新表情包

  • 要爬取的目标所在网址:http://www.doutula.com/photo/list/?page=1
  • 需要用到的第三方库:requests(用于请求图片链接得到图片内容)
  • 一点点正则表达式的应用:(.*?):在代码中用来匹配图片链接地址,(.*):用来匹配图片对应的名称更多的正则表达式使用参见正则表达式
  • re模块的使用,其中用到re.findall(‘匹配规则‘,字符串),将符合匹配规则从整个字符串从找出来,放在一个新的列表中,并返回这个列表(list),更多re模块使用参见菜鸟教程-Python正则表达式
  • 详细代码
    # !usr/bin/env/python
    # -*- coding:utf-8 -*-
    """
    time: 2020/02/01 12:37
    author: Tceo1
    OS: windows10
    """
    import re
    import requests
    
    # url地址:http://www.doutula.com/photo/list/ 有页数之后:http://www.doutula.com/photo/list/?page=2
    url = "http://www.doutula.com/photo/list/?page=1"
    response = requests.get(url)  # 返回一个响应类型
    m = r'data-original="(.*?)" alt="(.*)" class'
    # 查找符合的图片url,与图片名称
    result_list = re.findall(m, response.text)
    print(result_list)
    for image in result_list:
        image_url = image[0]
        image_name = image[1]
        # 通过切片获取到后缀名 如 .jpg
        image_type = image[0][-4:]
        # 请求图片url, 返回二进制响应
        image_content = requests.get(image_url).content
        save_path = r'E:/image/'
        with open(save_path + image_name + image_type, 'wb') as f:
            # 将二进制响应写入图片
            f.write(image_content)
    print("over")
  • 代码地址:https://github.com/Tceo1/scriptTools/blob/master/dtl.py

最后

感谢那些给予我帮助的人!

原文地址:https://www.cnblogs.com/thloveyl/p/12248334.html

时间: 2024-11-11 19:38:21

requests实践02_下载斗图拉最新表情包的相关文章

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码 首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

用python爬取 20w 表情包之后,感叹我族人是多么强大!

是这样的 有一次想要斗图 配图 就在网上搜索表情包 然后发现了一个表情巨多的网站 不小心动起了邪念 产生了兴趣 那就 把它们存下来吧 用 requests 请求了一下 发现这个网站没有做反爬 发现这里有 4k+ 的页面 简单的切换一下页面 可以发现 第一页的链接是这样的 https://fabiaoqing.com/biaoqing/lists/page/1.html 所以以此类推 构建一下所有url _url = 'https://fabiaoqing.com/biaoqing/lists/p

自从会了Python在群里斗图就没输过,Python批量下载表情包!

导语 最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址:

spider_爬取斗图啦所有表情包(图片保存)

"""爬取斗图吧里面的所有表情包 知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数 注:该案例主

表情包的同步异步下载

同步下载 from lxml import etree import requests from urllib import request #保存图片 import os import re def parse_page(url): headers = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/5

如何下载并安装最新版本的 OPatch

1.登陆mos站点下载最新版本的 OPatch补丁,这里以p6880880_102000_Linux-x86-64.zip补丁为例. 2.上传补丁至服务器,并移动补丁至数据库软件安装目录. #mv p6880880_102000_Linux-x86-64.zip $ORACLE_HOME 3.切换用户至oracle用户,进入$ORACLE_HOME安装补丁. [[email protected] ~]$ cd /home/oracle/orahome/ [[email protected] or

Python编程 从入门到实践 PDF 下载

网盘下载:Python编程 从入门到实践 PDF 下载 – 易分享电子书PDF资源网 作者: [美]埃里克·马瑟斯 出版社: 人民邮电出版社 副标题: 从入门到实践 原作名: Python Crash Course 译者: 袁国忠 出版年: 2016-7-1 页数: 459 定价: CNY 89.00 装帧: 平装 内容简介 · · · · · · 本书是一本针对所有层次的Python 读者而作的Python 入门书.全书分两部分:第一部分介绍用Python 编程所必须了解的基本概念,包括mat

【PDF下载】Python编程 从入门到实践 PDF 下载

网盘下载:Python编程 从入门到实践 PDF 下载 – 易分享电子书PDF资源网 作者: [美]埃里克·马瑟斯 出版社: 人民邮电出版社 副标题: 从入门到实践 原作名: Python Crash Course 译者: 袁国忠 出版年: 2016-7-1 页数: 459 定价: CNY 89.00 装帧: 平装 内容简介 · · · · · · 本书是一本针对所有层次的Python 读者而作的Python 入门书.全书分两部分:第一部分介绍用Python 编程所必须了解的基本概念,包括mat

Requests实践详解

Requests是什么 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作.(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库. 默认安装好python之后,是没有