自从会了Python在群里斗图就没输过,Python批量下载表情包!

导语

最近图慌,于是随便写了个表情包批量下载的脚本,没什么技术含量,纯娱乐性质。

让我们愉快地开始吧~

开发工具

Python版本:3.6.4

相关模块:

requests模块;

fake_useragent模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

爬的站长之家的表情包,链接:

http://sc.chinaz.com/biaoqing/index.html

非常好爬,思路也很简单:

① 获得表情包所在地址;

② 根据表情包所在地址,获得表情所在地址;

③ 根据表情所在地址下载表情。

具体实现过程详见相关文件中的源代码。

或许很多人都发现了,爬虫相关的文章我都是轻描淡写地说下主要思路然后让大家自己看源码的,一方面是我懒得写,另一方面是爬虫代码的存活时间不长,换句话说就是你花了很多时间写的文章过几个月甚至过几天可能就“没用”了。

不过今天我打算随手总结一下普通的反爬虫机制有哪些内容:

(1)验证码

(2)Header检验

即检查HTTP请求的Headers信息,一般包括:

User-Agent(UA);Referer;Cookies等。

User-Agent:

当前用户使用的客户端种类和版本;

Referer:

请求是从哪里来的;

Cookie:

有时候网站会检测Cookie中session_id的使用次数,显然当次数过多时,当前用户会被认为是爬虫。

(3)IP请求速度检验

当某个IP的请求速度过快时,就会触发该网站的反爬机制。

(4)动态加载

ajax动态加载网页内容。

That‘s all.

运行截图

指定爬取的范围:


在cmd窗口运行"Spider.py"文件即可。

效果截图:

好了,如果你跟我一样都喜欢python,想成为一名优秀的程序员,也在学习python的道路上奔跑,欢迎你加入python学习群:839383765 群内每天都会分享最新业内资料,分享python免费课程,共同交流学习,让学习变(编)成(程)一种习惯!

原文地址:http://blog.51cto.com/14186420/2347323

时间: 2024-12-17 13:56:46

自从会了Python在群里斗图就没输过,Python批量下载表情包!的相关文章

聊天斗图神器aidou mac中文版

aidou mac中文版是mac上一款专为斗图设计的聊天斗图神器,让您在聊天的时候不怕没有表情用,炫酷的表情即时更新,让您每时每刻都有新表情用!一键下载的表情包!小编现为您带来aidou斗图神器免费版下载,需要的朋友不容错过! 斗图神器aidou mac中文版安装教程 aidou mac版镜像包下载完成后打开,将左侧的[aidou]拉到右侧应用程序中即可! aidou mac版软件介绍 aidou这种斗图神器是在图战的时候帮助发图的利器,被发过无数次的图,还被你存在手机里?被群主.管理员羞辱,还

利用python爬虫关键词批量下载高清大图

前言 在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载.虽然小图能够在一些移动端可能展示的还行,但是放到pc端展示图片太小效果真的是很一般!建议阅读本文查看上一篇文章,在具体实现不做太多介绍,只讲个分析思路. 当然,本文可能技术要求不是特别高,但可以当作一个下图工具使用. 环境:python3+pycharm+requests+re+BeatifulSoup+json 在这里插入图片描述这个确实也属实有一

python学习总结---学习交流群里的问题总结

连续添加数据到明细: def onchange_product_id(self, cr, uid,ids, product_id,line_id, context=None): result={} if product_id: sql="select product_id, sum (qty) qty,lot_id ,max(in_date) in_date ,location_id from stock_quant where product_id=%d GROUP by product_id

Vue 脱坑记 - 查漏补缺(汇总下群里高频询问的xxx及给出不靠谱的解决方案)

前言 发现群里有些问题的提问重复率太高了,每次都去回答,回答的贼烦.这里做一个大体的汇总,废话不多说,直接开始给出方案,不是手把手..若是连问题和解决都看不懂的..应该去补充下基础知识 问题汇总 Q:安装超时(install timeout) 方案有这么些: cnpm : 国内对npm的镜像版本 /* cnpm website: https://npm.taobao.org/ */ npm install -g cnpm --registry=https://registry.npm.taoba

python多线程爬虫+批量下载斗图啦图片项目(关注、持续更新)

python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片 使用工具:requests库实现发送请求.获取响应. xpath实现数据解析.提取和清洗 threading模块实现多线程爬虫 爬取结果: 思路:由于该爬虫存在网络密集IO和磁盘密集IO,存在大量等待时间,遂采用多线程方式爬取. 设计:本文采用多为结构化代码的面向对象封装设计思路,使用生产消费者模型,完成多线程的调度.爬取.

群里有人问为什么在腾讯主机里看到有阿里云的链接, 难道是商业竞争吗?

好久之前的事了, 看了一下放在硬盘里, 得找个地方丢, 准备丢在博客上来. 群里有人问为什么在腾讯主机里看到有阿里云的链接, 难道是商业竞争吗? 我一看 aliyun.one ?立刻想到是钓鱼网站吗? 阿里云有这域名我怎么不知道? 然后使用 dns 查询工具, 查到所有响应的节点都在境外.我在国内 dns 怎么是境外? 已经确定是病毒了.使用浏览器打开这个网址, 发现立刻跳转到了 aliyun.com , 不知道的还以为是真的阿里云. 然后 curl 一下, 发现内容不一样了, 发现里面有 ht

群里分享的react的收藏一下!今日周末,改了个表单验证然后无所事事了!

今日周末,改了个表单验证然后无所事事了,然后把昨天群里分享的react的收藏一下尽管现在还在研究angular和nodeJs毕竟刚刚开始用有点不熟...没准以后会研究一下react毕竟看着下面这张图还是觉得有点欢乐的 现在最热门的前端框架,毫无疑问是 React . 上周,基于 React 的 React Native 发布,结果一天之内,就获得了 5000 颗星,受瞩目程度可见一斑. React 起源于 Facebook 的内部项目,因为该公司对市场上所有 JavaScript MVC 框架,

在一个前端群里看到的一个练习,获取阿姆斯特朗数

本来周五在公司,也没啥事情干,在群里看见别人发的一个题目,身为一个前端菜鸡就写了一下,不喜勿喷.... 实现输入一个数,当在一个可变范围内时,会返回输入数字最近的一个阿姆斯特朗数,并且可以输出范围内所有的阿姆斯特朗数. 题目如上,直接上代码... <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transition

经验篇第一期:群里的那点事儿

问题1:审核问题 问题2:UI控件根据数据自适应宽度 问题3:真机调试新出问题 问题4:UITableView常见bug 问题5:关于字符串copy与Strong地址不变的争议 问题6:关于系统内部推送开关相关方法的问题 问题7:关于UITableView数据源修改遗忘代码问题 学弟的问题是没有好好控制数据源DataSource里面的返回Cell个数的方法,也就是忘记返回第二个数组了,只返回了第一个数组,所以请大家注意,修改tableView的数据是要整体DataSource的方法都要修改才可以