爬站长之家表情包

 1 from bs4 import BeautifulSoup
 2 import os
 3 import requests
 4
 5 #获取页面内容
 6 def getHtmlText(url, s=‘text‘):
 7     try:
 8         r = requests.get(url, timeout=30)
 9         r.raise_for_status()
10         r.encoding = r.apparent_encoding
11         if s == ‘text‘:
12             return r.text
13         elif s == ‘content‘:
14             return r.content
15         else:
16             return ‘‘
17     except:
18         return ""
19
20
21  #获取表情包名字与表情包套链接
22 def getEmotionInfo(html):
23     soup = BeautifulSoup(html, ‘html.parser‘)
24     emo_divs = soup.find_all(‘div‘, attrs={‘class‘:‘up‘})
25     for div in emo_divs:
26         a = div.find(‘div‘, attrs={‘class‘:‘num_1‘}).find(‘a‘)
27         title = a.attrs[‘title‘]
28         href = a.attrs[‘href‘]
29         getEmotionImgInfo(title, href)
30
31 #获取表情包中每一个图片的链接
32 def getEmotionImgInfo(title, href):
33     html = getHtmlText(href)
34     soup = BeautifulSoup(html, ‘html.parser‘)
35     img_div = soup.find(‘div‘, attrs={‘class‘:‘img_text‘}).next_sibling.next_sibling
36     imgs = img_div.find_all(‘img‘)
37     url_list = []
38     for img in imgs:
39         src = img.attrs[‘src‘]
40         url_list.append(src)
41     getImg(title, url_list)
42
43 #获取表情包保存在本地
44 def getImg(title, url_list):
45     root = ‘D://pics//‘ + title
46     if not os.path.exists(root):
47         os.mkdir(root)
48     count_small = 0
49     for key in url_list:
50         path = root +‘//‘+ key.split(‘/‘)[-1]
51         if not os.path.exists(path):
52             img_content = getHtmlText(key,‘content‘)
53             with open(path, ‘wb‘) as f:
54                 f.write(img_content)
55             count_small = count_small + 1
56             print(‘\r{}文件进度：{:.2f}%‘.format(title, count_small*100/len(url_list)),end=‘,‘)
57
58 if __name__ == ‘__main__‘:
59     first_url = ‘http://sc.chinaz.com/biaoqing/index.html‘
60     root_url = ‘http://sc.chinaz.com/biaoqing/index_‘
61 62     pages = 20
63     for i in range(1,pages): #切换页面爬取内容
64         if i == 1:
65             html = getHtmlText(first_url)
66         else:
67             url = root_url + str(i) + ‘.html‘
68             html = getHtmlText(url)
69         getEmotionInfo(html)

时间： 2024-08-04 10:08:52

爬站长之家表情包的相关文章

python爬虫教程：《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

爬取表情包

这是我第一次在这写博客,还是有点兴奋. 我也是刚接触Python不久,发现Python代码真的很强大,简单就可以处理复杂的事.最近很想写个爬虫,但水平没达到,正好CSDN学院有个公开课,黄勇老师讲的<90分钟掌握Python多线程爬虫(全程实战)>,3月6日晚20:00我听了直播,当时没跟上,等看了回播才搞明白(可能我是Python2课里是Python3,找理由O(∩_∩)O哈哈~). 先上笔记: 爬虫的流程分析: 1.请求数据:requests库(这个库可以很方便的去请求网络数据) *安装方

用python爬取 20w 表情包之后，感叹我族人是多么强大！

是这样的有一次想要斗图配图就在网上搜索表情包然后发现了一个表情巨多的网站不小心动起了邪念产生了兴趣那就把它们存下来吧用 requests 请求了一下发现这个网站没有做反爬发现这里有 4k+ 的页面简单的切换一下页面可以发现第一页的链接是这样的 https://fabiaoqing.com/biaoqing/lists/page/1.html 所以以此类推构建一下所有url _url = 'https://fabiaoqing.com/biaoqing/lists/p

spider_爬取斗图啦所有表情包（图片保存）

"""爬取斗图吧里面的所有表情包知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数注:该案例主

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

目录 1.需求描述 2.实战代码 2.1 单线程爬取 2.2 多线程版 1.需求描述爬取斗图啦网站,地址为:https://www.doutula.com/photo/list/[Python3 爬虫]U28_多线程爬取斗图啦的表情包原文地址:https://www.cnblogs.com/OliverQin/p/12636681.html

自从会了Python在群里斗图就没输过，Python批量下载表情包！

导语最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址:

张书乐：在发尔康和葛优躺表情包时，你可能在侵权，他却在赚钱

使用次数TOP10的表情符号里,"哭笑不得"的表情使用次数最多,总计高达7518440701次:女性青年每人平均每天使用表情2.84次,而男性青年每人平均每天使用表情次数为0.74次,女性是男性的3.83倍.与男性相比,女性的表情使用普遍偏感性. 文/张书乐(人民网.人民邮电报专栏作者) 新著有<微博运营完全自学手册> 与此同时,笔者从分钟律师App平台了解到,今年以来,有关使用表情包是否侵权的咨询明显增多,用户和律师问询的内容集中在"将朋友的图片制作成表情包发布

卖萌的瑞虎，奇瑞玩起表情包+直播大促销

萌萌哒的营销方式,显然也是当下汽车行业在营销上的全新突破口.毕竟过去官样的文章和各种产品数据,对于绝大多数购车者来说,要么味如嚼蜡文/张书乐 9月20日上市的瑞虎7,十天销量就达5223辆,终端订单超过1.5万辆.这样的销售业绩是如何达到的?除了产品本身品质不俗外,奇瑞在新品上市之时,做的营销功课也堪称极致. 简单来说,就是用卖萌和直播来引爆网民话题,放下身段,一起狂欢. 卖萌+直播,没有人会拒绝萌萌哒的诱惑 9月20日,瑞虎7上市.而在微博和直播上,它都成了网红. 中午12点整,奇瑞官微突然