爬虫使用分享:风云2号卫星气象照片

爬虫概述

早在2016年,我用我的阿里云ECS上运行了一个长期性质的爬虫程序,内容是采集风云二号气象卫星照片,现在假期终于有时间回来查看结果,简单统计如下(附图):

图片总数:45869 个文件

最早文件:201609131345.jpg

最晚文件:201910091415.jpg

爬虫运行过程

1,数据源:

当时意外获得一个长期有效的数据来源,其URL参数,为时间格式,也就是说有着明显的规律。适合爬虫运行

2,爬虫运行:

这个爬虫的运行条件其实有2个:1定时下载;2不停机运行;

既然是气象数据,当然得定时抓取,所以我写了一个windows服务,置于后台连续运行。虽然中间由于服务器其他问题导致中断过几次,不过架不住时间长久,因此还是成功连续采集了很多数据。

还有个要求就是不能关机,程序需要连续运行。我的最终方案就是使用云服务器ECS部署运行。避免使用个人PC长期开机来运行。

3,处理存储:

首先,这个程序既然要长期运行,那么非常避讳的一点就是所有结果都集中在一个本地文件夹里,因此我选用了阿里云对象存储OSS,同时由于我需要不关机,所以我最终是云服务器ECS+对象存储OSS,ECS和OSS使用了同地域的,因此内网打通传输很快。这样我就只在本地做一个临时存储,转存OSS后不再占用本地硬盘,这样一来我才可以放心启动后“免维护”运行这好几年。

4,爬虫关停

爬虫的关停并非我本意,是我假期期间查看日志才知道数据源已经失效了。因此本爬虫寿终正寝。虽然我可以去寻找一下新的有效数据源,但是由于老数据我都没用好,那么新的数据就暂时先不去寻找了。

爬虫工作完成,最终成果下载

我选用了阿里云推荐的OSS客户端工具,由于我提前规划好了ECS和OSS同地域,因此可以直接内网下载到我的ECS,速度还是很快的,工具显示大于60MB/s。工具部分截图如图:

为了避免OSS公网下载流量的费用支出(其实是穷:直接下载6G大小文件,忙时价格为1块5毛钱),我将OSS数据内网下载后,走ECS的出带宽下载回我PC本地。本地查看:

原文地址: https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

原文地址:https://www.cnblogs.com/opengps/p/12235697.html

时间: 2024-10-15 01:50:25

爬虫使用分享:风云2号卫星气象照片的相关文章

基于GLT法的风云三号气象卫星校正

GLT几何校正法利用输入的几何文件生成一个地理位置查找表文件(geographic lookup table,GLT),从该文件中可以了解到某个初始像元在最终输出结果中实际的地理位置.地理位置查找表文件是一个二维图像文件,文件中所包含两个波段:地理校正图像的行和列,文件对应的灰度值表示原始图像每个像素对应的地理位置坐标信息,用有符号整型储存,它的符号说明输出像元是对应于真实的输入像元,还是由邻近像元生成的填实像元(infill pixel).符号为正时说明使用了真实的像元位置值:符号为负时说明使

QQ空间爬虫最新分享,一天 400 万条数据(附代码地址)

http://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653552228&idx=1&sn=e476bf23556406cbce7de65508d79843&chksm=806dd0d9b71a59cf2b062a19309c849a62ba15790898e5e619205f0f5ec84a90025a8cea05e9&mpshare=1&scene=23&srcid=11252MeE6Qu1D

爬虫工程师分享:三步就搞定 Android 逆向

本文源于我近期的一次公司内部分享,通过逆向某款 APP 来介绍逆向过程.由于仅作为学习用途,APP 的相关信息会被遮盖,敬请理解. 关于逆向 逆向--包括但不限于通过反编译.Hook 等手段,来解析一些功能的实现过程. 逆向在很多领域都有应用,比如如今爬虫技术已经遍地走,甚至不用写代码都可以爬取数据,导致前端开发的反爬意识也逐步提升.因此 JS.Android 等领域的逆向,已经成为爬虫开发者必备的技能之一. 本文介绍的是最典型常见的传参加密,在很多应用接口都能见到,如果我们逆向解析出加密过程,

分享微信公众号运营助手,可以在手机上回复粉丝留言

由于公司旗下有好几个微信公众号,经常来回切换登录很麻烦,粉丝留言咨询的时候常常不能及时回复,导致订单流失.于是我们团队开发了一个公众号小助手,可以把多个公众号绑定进来,只要有粉丝留言,马上管理员就收到通知了,然后还可以在手机上进行回复. 实现的功能如下: 粉丝留言自动微信通知 在微信中回复粉丝留言,文字+图片 粉丝关注自动微信通知 粉丝关注自动推送多图文消息或者历史消息 更强大的自定义菜单管理 自定义客服消息模板 支持绑定多个管理员 支持关键词自动回复 支持二次开发 虽然这个小助手很小,但是里面

爬虫论坛分享

现在网上的爬虫资料还是很零散,因为门槛会比较高,所以一爬虫为主题的资源分享站点更是少见. 下面给大家分享一个爬虫论坛,至少到目前来说对外帮助挺大的,里面的爬虫开发大牛也是挺多的,有兴趣的人可以加入学习下. QQ群:40636692 论坛地址:http://www.spider6.com/forum.php        注:现在加入还送会员 版权声明:本文为博主原创文章,未经博主允许不得转载.

分享一个公众号h5裂变吸粉源码工具

这次我是分享我本人制作的一个恶搞程序,说白了就是一个公众号裂变吸粉工具,市面上有很多引流方法,例如最常见的就是色流,哈哈,今天我跟大家分享的方法是有趣的,好玩的,恶搞的.这个程序上线一天已经收获了611个粉丝关注,请看数据: 废话少说,下面开始讲制作流程,请大家后腿一步,装逼正式开始! 首先:搭建这套程序至少需要域名和空间(找个香港的主机就可以了,域名不用备案) 我们先看看这个工具的流程界面,我直接上图吧. 第一步:发起人发制作好的微信群二维码(可以发朋友.发群.朋友圈分享),如图: 第二步:长

Python爬虫实现的微信公众号文章下载器

平时爱逛知乎,收藏了不少别人推荐的数据分析.机器学习相关的微信公众号(这里就不列举了,以免硬广嫌疑).但是在手机微信上一页页的翻阅历史文章浏览,很不方便,电脑端微信也不方便. 所以我就想有什么方法能否将这些公众号文章下载下来.这样的话,看起来也方便.但是网上的方法要么太复杂(对于我这个爬虫入门新手来说),要么付费. 但我的需求其实却很简单--"方便的查找 / 检索 / 浏览相关公众号的任意文章",所以,一番学习检索后,上手做了一个小工具(打包成可执行文件了),虽然方法和代码相当简单,但

Python爬虫获取迅雷会员帐号

代码如下: 1 import re 2 import urllib.request 3 import urllib 4 import time 5 6 from collections import deque 7 8 head = { 9 'Connection': 'Keep-Alive', 10 'Accept': 'text/html, application/xhtml+xml, */*', 11 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-C

一种爬虫架构分享

这是舆情分析系统,一种泛提取的爬虫,主要是要爬取63个网站或搜索引擎的新闻. 爬虫系统主要是分为主动式调度系统和被动式调度系统.这个架构图是主动去拿种子. 还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实时的爬取并返回结果.