爬虫高玩教你用Python每秒钟下载一张高清大图，快不快？

如果爬虫需要展现速度，我觉得就是去下载图片吧，原本是想选择去煎蛋那里下载图片的，那里的美女图片都是高质量的，我稿子都是差不多写好了的，无奈今天重新看下，妹子图的入口给关了。

至于为什么关呢，大家可以去看看XXX日报的关停原因吧或者百度下，这里就不多说了，这次我选择了去下载无版权高清图片，因为做自媒体的人很怕侵权，找无版权的图片仿佛成了日常工作，所以这次我选择了这个网站

https://unsplash.com/

那下面来看看使用异步以及不使用异步的差别？

(右边是使用异步的，左边是没有使用异步的，由于用于测试，所以选择下载12张图片即可)

可以看到，在使用异步之后运行的时间比不使用异步的程序少了差不多6倍的时间，是不是感觉到high了起来？那我们分析下怎样爬取吧。

1. 找目标网页

这个网站首页就有一堆图片，而且往下拉时还会自动刷新，很明显是个ajax加载，但不怕，动态加载这东西我们之前讲过了，所以打开开发者工具看下是怎样的请求吧。

往下拉的时候很容易看到这个请求，这个是一个get请求，状态码为200，网址为https://unsplash.com/napi/photos?page=3&per_page=12&order_by=latest，有三个参数，很容易知道page参数就是页，这个参数是变化的，其他的参数都是不变的。

返回来的内容是个json类型，里面的links下的download就是我们图片下载的链接，现在所有东西都清楚了，那下面就是代码了。

2. 代码部分

async def __get_content(self, link):

async with aiohttp.ClientSession() as session:

response = await session.get(link)

content = await response.read()

return content

这个是获取图片的内容的方法，aiohttpClientSession和requests.session的用法是差不多，只不过获取unicode编码的方法变成了read()。

下面是完整代码

import requests, os, time

import aiohttp, asyncio

class Spider(object):

def __init__(self):

self.headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘}

self.num = 1

if ‘图片‘ not in os.listdir(‘.‘):

os.mkdir(‘图片‘)

self.path = os.path.join(os.path.abspath(‘.‘), ‘图片‘)

os.chdir(self.path) # 进入文件下载路径

async def __get_content(self, link):

async with aiohttp.ClientSession() as session:

response = await session.get(link)

content = await response.read()

return content

def __get_img_links(self, page):

url = ‘https://unsplash.com/napi/photos‘

data = {

‘page‘: page,

‘per_page‘: 12,

‘order_by‘: ‘latest‘

}

response = requests.get(url, params=data)

if response.status_code == 200:

return response.json()

else:

print(‘请求失败，状态码为%s‘ % response.status_code)

async def __download_img(self, img):

content = await self.__get_content(img[1])

with open(img[0]+‘.jpg‘, ‘wb‘) as f:

f.write(content)

print(‘下载第%s张图片成功‘ % self.num)

self.num += 1

def run(self):

start = time.time()

for x in range(1, 101): # 下载一百页的图片就可以了，或者自己更改页数

links = self.__get_img_links(x)

tasks = [asyncio.ensure_future(self.__download_img((link[‘id‘], link[‘links‘][‘download‘]))) for link in links]

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

if self.num >= 10: # 测试速度使用，如需要下载多张图片可以注释这段代码

break

end = time.time()

print(‘共运行了%s秒‘ % (end-start))

def main():

spider = Spider()

spider.run()

if __name__ == ‘__main__‘:

main()

可以看到不到50行的代码就可以把整个网网站的图片下载下来了，不得不吹一下python的强大~~~

福利时间：

进群：125240963 即可获取数十套PDF哦！

原文地址：https://www.cnblogs.com/PY1780/p/9332478.html

时间： 2024-11-15 00:36:29

爬虫高玩教你用Python每秒钟下载一张高清大图，快不快？的相关文章

10分钟教你用Python玩转微信之抓取好友个性签名制作词云

01 前言+展示各位小伙伴我又来啦.今天带大家玩点好玩的东西,用Python抓取我们的微信好友个性签名,然后制作词云.怎样,有趣吧~好了,下面开始干活.我知道你们还是想先看看效果的. 后台登录: 词云: 02 环境准备 Python版本:3.6.0系统平台:Windows 10 X64IDE:pycharm 相关模块:re模块:itchat模块:jieba模块:import matplotlib.pyplot模块:wordcloud模块:以及一些Python自带的模块. 03 获取个性签名首

利用python爬虫关键词批量下载高清大图

前言在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载.虽然小图能够在一些移动端可能展示的还行,但是放到pc端展示图片太小效果真的是很一般!建议阅读本文查看上一篇文章,在具体实现不做太多介绍,只讲个分析思路. 当然,本文可能技术要求不是特别高,但可以当作一个下图工具使用. 环境:python3+pycharm+requests+re+BeatifulSoup+json 在这里插入图片描述这个确实也属实有一

12岁的少年教你用Python做小游戏

原地址:http://blog.jobbole.com/46308/ 本文由伯乐在线 - 贱圣OMG 翻译自 Julian Meyer.欢迎加入技术翻译小组.转载请参见文章末尾处的要求. [感谢@贱圣OMG 的热心翻译.如果其他朋友也有不错的原创或译文,可以尝试推荐给伯乐在线.] 你有没有想过电脑游戏是怎样制作出来的?其实它没有你想象的那样复杂! 在这个教程里,你要学做一个叫<兔子和獾>的塔防游戏,兔子作为英雄,需要在城堡里抵御獾的进攻. 为了写这个游戏的代码,你将会用Python.好吧,我

手把手教你使用Python抓取QQ音乐数据！

[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐数据(第二弹)我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评. 通过手把手教你使用Python抓取QQ音乐数据(第三弹)我们实现了获取更多评论并生成词云图. 此次我们将将三个项目封装在一起,通过菜单控制爬取不同数据. [二.需要的库] 主要涉及的库有:requests.openpyxl.

《编写高质量代码：改善Python程序的91个建议》读后感

编写高质量代码:改善Python程序的91个建议 http://book.douban.com/subject/25910544/ 1.(建议16)is 用于判断两个对象的id是否相等,==才是判断值是否相等 2.(建议23)for,while,和try语句后面都可以跟else语句,可以简化代码 3.(建议18) __init__.py模块可以写代码,import时只需要 import 包(文件夹) 4.(建议19)用import a 而不是 from a import b ,可以避免嵌套导入

python网络爬虫入门（二）——用python简单实现调用谷歌翻译

最近在看国外的文档,有些生词不认识.就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码.发现可以用python简单的实现下谷歌翻译的页面功能.于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下: import re import urllib,urllib2 #----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路------- def Gtranslate(text): #t

Python 实现的下载op海贼王网的图片（网络爬虫）

没得事就爬一下我喜欢的海贼王上的图片需要在d盘下建立一个imgcache文件夹 # -*- coding: utf-8 -*- import urllib import urllib2 import json from bs4 import BeautifulSoup import threadpool import thread class htmlpaser: def __init__(self): self.url='http://1.hzfans.sinaapp.com/process

手把手教你用python打造网易公开课视频下载软件3-对抓取的数据进行处理

上篇讲到抓取的数据保存到rawhtml变量中,然后通过编码最终保存到html变量当中,那么html变量还会有什么问题吗?当然会有了,例如可能html变量中的保存的抓取的页面源代码可能有些标签没有关闭标签,例如<div>hello</,这样的错误,那么怎么处理呢?接着看下面的代码: soup=BeautifulSoup(html) 其中利用模块BeautifulSoap,可能很方便去整理html源文件内容,这里我写了个小例子,大家看一下,代码如下: html='<html>&l

手把手教你用python打造网易公开课视频下载软件4-图形化界面

上一篇讲解完函数:def getdownLoadInfo (url): 传入公开课的url地址,就可以提取课程的信息,这一篇讲解一下如何编写图像化界面.大概思考一下图像化界面需要的内容: (1)一个标签:显示为:"请输入公开课地址" (2)一个文本框:用来输入地址 (3)一个按钮:点击用来提取视频信息 (4)一个标签和多行文本框,其中标签用来显示课程信息,多行文本用来显示下载链接完成后的效果图如下: 我们先贴出代码: #创建APP app=wx.App(False) #创建frame

猜你喜欢

粒子效果

Java中Scanner类在nextInt()后无法输入nextLine()的问题

首先,Scanner是一个扫描器,它扫描数据都是去内存中一块缓冲区中进行扫描并读入数据的,而我们在控制台中输入的数据也都是被先存入缓冲区中等待扫描器的扫描读取.这个扫描器在扫描过程中判断停止的依据就是 ...

Asp.net--DropDownList控件绑定数据库数据

DropDownList控件绑定数据库数据:DB是公共类,reDt是公共类中的方法放在Page_Load事件中 if (!IsPostBack) { DB db = new DB(); DataTa ...

第1章重构，第一个案例（2）：分解并重组statement函数

2. 重构的第一步:建立一组可靠的测试环境 3. 分解并重组statement (1)提炼switch语句到独立函数(amountFor)和注意事项. ①先找出函数内的局部变量和参数:each和thi ...

九度[1150]Counterfeit Dollar

# include<iostream> # include<string> # include<cstdio> using namespace std; struc ...

css动画怎么写：3个属性实现

3个属性:transition,animation,transform 实现步骤: 1.css定位 2.rgba设置颜色透明度 3.转换+动画 transform+animation 4.动画平滑过渡 ...

codeforces 490B.Queue 解题报告

题目链接:http://codeforces.com/problemset/problem/490/B 题目意思:给出每个人 i 站在他前面的人的编号 ai 和后面的人的编号 bi.注意,排在第一个位 ...

简单的玩玩etimer <contiki学习笔记之九>

好吧,我承认etimer有点小复杂,主要是它似乎和contiki的process搅在一起,到处都在call_process.那就先搜搜contiki下的etimer的example看看,然后再试着写一 ...

苦杏仁

杏仁(apricot kernel)是杏的种子(果仁),可以食用或入药.原产于东亚和中亚. 目录 [隐藏] 1 苦杏仁与甜杏仁 2 中药价值 3 相关 4 外部链接苦杏仁与甜杏仁有苦杏仁(Prun ...

java之day6

String类 package day6; import java.util.Arrays; public class StringTest { public static void main(Str ...

将Linux和开源解决方案带到Azure云中第二场培训

因福州微软孵化器需要,3月27日下午给入孵企业进行第二场将Linux和开源解决方案带到Azure云中的培训. 本次培训的内容有: 概述:将开源技术带入 Azure 云中 Linux and OSS o ...

(笔记)Ubuntu下安装arm-linux-gcc-4.4.3.tar.gz (交叉编译环境)

参考了前人的成果,结合自己实践,arm-linux-gcc-4.4.3.tar.gz的下载地址为:http://ishare.iask.sina.com.cn/f/13836544.html?from ...

apache配置搭建

软件包下载: wget http://mirror.bit.edu.cn/apache/httpd/httpd-2.4.25.tar.gz wget http://mirror.bit.edu.cn/ ...

安卓代码覆盖率:android studio+ gradle+jacoco

在工程的oncreate()方法添加如下代码,目的是创建ec文件. String DEFAULT_COVERAGE_FILE_PATH = "/mnt/sdcard/coverage.ec& ...

转换编码 --GBK---UTF16---UTF8

什么时候需要转换编码? 你的字符串按GBK编码,但对方要求按UTF16编码. 如:char str[]="你好"; 4个字节,发送给对方,但对方只接受UTF16编码 VC下的转换方 ...

cacti监控服务器的数据迁移

应客户需求并且与王同事商讨,在BJD环境缺少一台备用cacti监控服务器,需要将原cacti监控服务器的数据迁移到新的监控主机上去,实现监控数据同步. 迁移思路:cacti数据主机是由mysql数据和 ...

录播教室预约系统(三)-DepTable表

DepTable表主要作用存放单位名称如图: 模板下载地址 CodeSmith版本为v6.5 第一步:用CodeSmith模板生成DepTable表相关的存储过程生成的存储过程如下: /** ...

Spring 系列，第 3 部分: 进入 Spring MVC

在 Spring 系列的第 3 部分中,我介绍 Spring MVC 框架.就像在以前的文章中一样,我用银行示例介绍如何建模和构建简单的应用程序.示例应用程序包含了已经学过的一些技术(例如依赖注入) ...

linux改动登陆主机提示信息

寻常管理着130多台Linux物理主机.真正搞清楚每一台主机的IP信息.应用部署比較麻烦! 所以在部署之初,必须规划好: 写一个脚本.把主机IP.管理员联系方法,应用部署等主机信息放在.sh里面 sh ...

PHP操作MySQL的常用函数

mysql_connect() 连接数据库,连接成功返回标识符,失败返回false mysql_select_db() 选择数据库,选择充公返回true,失败返回false mysql_query() ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.023 s.