爬虫_斗图啦_表情包下载

为下一个多线程练练手

 1 import requests
 2 from lxml import etree
 3 import re
 4 from urllib import request
 5 import time
 6 import os
 7
 8 def get_html(url):
 9     headers = {‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36‘}
10     try:
11         response = requests.get(url, headers=headers)
12         response.raise_for_status()
13
14         response.encoding = ‘utf-8‘
15         return response.text
16     except:
17         return 0
18
19
20 def parse_html(html):
21     html_element = etree.HTML(html)
22     imgs = html_element.xpath(‘//div[@class="page-content text-center"]//img[@class!="gif"]‘)
23     for img in imgs:
24         url = img.get(‘data-original‘)
25         name = img.get(‘alt‘)
26         name = re.sub(‘[??,。]‘, ‘‘, name)#看系统的命名要求了
27         tail = os.path.splitext(url)[1] #取后缀
28
29         file_name = name + tail  #拼接文件名
30         request.urlretrieve(url, ‘images/‘ + file_name)  #注意提前新建images文件夹
31
32
33 def main():
34     for i in range(1, 50):
35         url = ‘http://www.doutula.com/photo/list/?page=%d‘ % i
36         html = get_html(url)
37         while html == 0:
38             time.sleep(2)
39             html = get_html(url)
40         parse_html(html)
41         # break
42
43
44 if __name__ == ‘__main__‘:
45     main()

不多说了,沙海开始了。

原文地址:https://www.cnblogs.com/MC-Curry/p/9457129.html

时间: 2024-08-01 00:44:25

爬虫_斗图啦_表情包下载的相关文章

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

目录 1.需求描述 2.实战代码 2.1 单线程爬取 2.2 多线程版 1.需求描述 爬取斗图啦网站,地址为:https://www.doutula.com/photo/list/[Python3 爬虫]U28_多线程爬取斗图啦的表情包 原文地址:https://www.cnblogs.com/OliverQin/p/12636681.html

spider_爬取斗图啦所有表情包(图片保存)

"""爬取斗图吧里面的所有表情包 知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数 注:该案例主

用Python多线程实现生产者消费者模式爬取斗图网的表情图片

什么是生产者消费者模式 某些模块负责生产数据,这些数据由其他模块来负责处理(此处的模块可能是:函数.线程.进程等).产生数据的模块称为生产者,而处理数据的模块称为消费者.在生产者与消费者之间的缓冲区称之为仓库.生产者负责往仓库运输商品,而消费者负责从仓库里取出商品,这就构成了生产者消费者模式. 生产者消费者模式的优点 解耦假设生产者和消费者分别是两个线程.如果让生产者直接调用消费者的某个方法,那么生产者对于消费者就会产生依赖(也就是耦合).如果未来消费者的代码发生变化,可能会影响到生产者的代码.

QQ表情包下载[eip格式,导入只需一键搞定]【链接已经失效】

原文发布时间为:2008-09-18 -- 来源于本人的百度文章 [由搬家工具导入] 本人Handboy收集各类或可爱或抽风的表情 现在提供大家10个有爱的表情包下载 不喜勿入- - 1 阿布系列(282张)    大萌这抽抽的家伙>< 2 熊猫BOBO与TOTO鸡(56张) 萌~ 3 蘑菇点点(280张) 4 炮炮兵(212张) 5 经典--兔斯基(82张)   宇宙的兔斯基!? 6 悠嘻猴QQ表情包(222张)  国民的嘻哈猴!? 7 幸运星(436张) 小区的幸运星(小众-) 8 粉粉猪

python爬虫教程:《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

用python制作表情包,领略scrapy框架的魅力!

先上图: scrapy框架爬取某表情网站表情图[源码+GIF表情包下载] python源代码 import scrapy import os,sys import requests import re class scrapyone(scrapy.Spider): name = "stackone" start_urls = ["http://qq.yh31.com/ql/bd/"] def parse(self,response): hrf=response.xp

张书乐:在发尔康和葛优躺表情包时,你可能在侵权,他却在赚钱

使用次数TOP10的表情符号里,"哭笑不得"的表情使用次数最多,总计高达7518440701次:女性青年每人平均每天使用表情2.84次,而男性青年每人平均每天使用表情次数为0.74次,女性是男性的3.83倍.与男性相比,女性的表情使用普遍偏感性. 文/张书乐(人民网.人民邮电报专栏作者) 新著有<微博运营完全自学手册> 与此同时,笔者从分钟律师App平台了解到,今年以来,有关使用表情包是否侵权的咨询明显增多,用户和律师问询的内容集中在"将朋友的图片制作成表情包发布

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码 首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

自从会了Python在群里斗图就没输过,Python批量下载表情包!

导语 最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址: