爬站长之家表情包

 1 from bs4 import BeautifulSoup
 2 import os
 3 import requests
 4
 5 #获取页面内容
 6 def getHtmlText(url, s=‘text‘):
 7     try:
 8         r = requests.get(url, timeout=30)
 9         r.raise_for_status()
10         r.encoding = r.apparent_encoding
11         if s == ‘text‘:
12             return r.text
13         elif s == ‘content‘:
14             return r.content
15         else:
16             return ‘‘
17     except:
18         return ""
19
20
21  #获取表情包名字与表情包套链接
22 def getEmotionInfo(html):
23     soup = BeautifulSoup(html, ‘html.parser‘)
24     emo_divs = soup.find_all(‘div‘, attrs={‘class‘:‘up‘})
25     for div in emo_divs:
26         a = div.find(‘div‘, attrs={‘class‘:‘num_1‘}).find(‘a‘)
27         title = a.attrs[‘title‘]
28         href = a.attrs[‘href‘]
29         getEmotionImgInfo(title, href)
30
31 #获取表情包中每一个图片的链接
32 def getEmotionImgInfo(title, href):
33     html = getHtmlText(href)
34     soup = BeautifulSoup(html, ‘html.parser‘)
35     img_div = soup.find(‘div‘, attrs={‘class‘:‘img_text‘}).next_sibling.next_sibling
36     imgs = img_div.find_all(‘img‘)
37     url_list = []
38     for img in imgs:
39         src = img.attrs[‘src‘]
40         url_list.append(src)
41     getImg(title, url_list)
42
43 #获取表情包保存在本地
44 def getImg(title, url_list):
45     root = ‘D://pics//‘ + title
46     if not os.path.exists(root):
47         os.mkdir(root)
48     count_small = 0
49     for key in url_list:
50         path = root +‘//‘+ key.split(‘/‘)[-1]
51         if not os.path.exists(path):
52             img_content = getHtmlText(key,‘content‘)
53             with open(path, ‘wb‘) as f:
54                 f.write(img_content)
55             count_small = count_small + 1
56             print(‘\r{}文件进度:{:.2f}%‘.format(title, count_small*100/len(url_list)),end=‘,‘)
57
58 if __name__ == ‘__main__‘:
59     first_url = ‘http://sc.chinaz.com/biaoqing/index.html‘
60     root_url = ‘http://sc.chinaz.com/biaoqing/index_‘
61 62     pages = 20
63     for i in range(1,pages): #切换页面爬取内容
64         if i == 1:
65             html = getHtmlText(first_url)
66         else:
67             url = root_url + str(i) + ‘.html‘
68             html = getHtmlText(url)
69         getEmotionInfo(html)
时间: 2024-08-04 10:08:52

爬站长之家表情包的相关文章

python爬虫教程:《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 撸代码 首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp from lxml imp

爬取表情包

这是我第一次在这写博客,还是有点兴奋. 我也是刚接触Python不久,发现Python代码真的很强大,简单就可以处理复杂的事.最近很想写个爬虫,但水平没达到,正好CSDN学院有个公开课,黄勇老师讲的<90分钟掌握Python多线程爬虫(全程实战)>,3月6日晚20:00我听了直播,当时没跟上,等看了回播才搞明白(可能我是Python2课里是Python3,找理由O(∩_∩)O哈哈~). 先上笔记: 爬虫的流程分析: 1.请求数据:requests库(这个库可以很方便的去请求网络数据) *安装方

用python爬取 20w 表情包之后,感叹我族人是多么强大!

是这样的 有一次想要斗图 配图 就在网上搜索表情包 然后发现了一个表情巨多的网站 不小心动起了邪念 产生了兴趣 那就 把它们存下来吧 用 requests 请求了一下 发现这个网站没有做反爬 发现这里有 4k+ 的页面 简单的切换一下页面 可以发现 第一页的链接是这样的 https://fabiaoqing.com/biaoqing/lists/page/1.html 所以以此类推 构建一下所有url _url = 'https://fabiaoqing.com/biaoqing/lists/p

spider_爬取斗图啦所有表情包(图片保存)

"""爬取斗图吧里面的所有表情包 知识点总结: 一.使用requests库进行爬取,随机请求头(网站反爬措施少.挂个请求头足矣) 二.具体思路: 1.先爬取所有的图片url,放在列表里 2.循环遍历url请求这些图片, 3.将图片进行分类保存三.分类保存用到一个知识点,endwith(以***结尾) 使用这个函数,将jpg,gif,png等不同类型的图片分开四.演示案例中,只爬取了前20页.五.各个定义的数字变量意思为: n=1 网页页数 num=1 保存图片数 注:该案例主

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

目录 1.需求描述 2.实战代码 2.1 单线程爬取 2.2 多线程版 1.需求描述 爬取斗图啦网站,地址为:https://www.doutula.com/photo/list/[Python3 爬虫]U28_多线程爬取斗图啦的表情包 原文地址:https://www.cnblogs.com/OliverQin/p/12636681.html

自从会了Python在群里斗图就没输过,Python批量下载表情包!

导语 最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质. 让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: fake_useragent模块: 以及一些Python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 爬的站长之家的表情包,链接: http://sc.chinaz.com/biaoqing/index.html 非常好爬,思路也很简单: ① 获得表情包所在地址:

张书乐:在发尔康和葛优躺表情包时,你可能在侵权,他却在赚钱

使用次数TOP10的表情符号里,"哭笑不得"的表情使用次数最多,总计高达7518440701次:女性青年每人平均每天使用表情2.84次,而男性青年每人平均每天使用表情次数为0.74次,女性是男性的3.83倍.与男性相比,女性的表情使用普遍偏感性. 文/张书乐(人民网.人民邮电报专栏作者) 新著有<微博运营完全自学手册> 与此同时,笔者从分钟律师App平台了解到,今年以来,有关使用表情包是否侵权的咨询明显增多,用户和律师问询的内容集中在"将朋友的图片制作成表情包发布

卖萌的瑞虎,奇瑞玩起表情包+直播大促销

萌萌哒的营销方式,显然也是当下汽车行业在营销上的全新突破口.毕竟过去官样的文章和各种产品数据,对于绝大多数购车者来说,要么味如嚼蜡 文/张书乐 9月20日上市的瑞虎7,十天销量就达5223辆,终端订单超过1.5万辆.这样的销售业绩是如何达到的?除了产品本身品质不俗外,奇瑞在新品上市之时,做的营销功课也堪称极致. 简单来说,就是用卖萌和直播来引爆网民话题,放下身段,一起狂欢. 卖萌+直播,没有人会拒绝萌萌哒的诱惑 9月20日,瑞虎7上市.而在微博和直播上,它都成了网红. 中午12点整,奇瑞官微突然