亚马逊云平台采集转单机采集实现

实验室的一个项目采集亚马逊的商品数据,包括单体和变体采集。最开始的一个demo是单机版的java采集软件,后面根据导师的要求,实现了云端分布式采集——实验室提供采集设备资源,多机分布式多线程采集,用户只需在前台配置所需采集的URL即可,不需要挂机采集,从而给用户提供云端的采集服务。

项目组在实现的其中遇到了很多的技术难点,包括分布式架构的搭建,采集逻辑流程的设计以及亚马逊验证码的识别,代码的优化,经过了反复的研究,经过了几个月的测试,现已经基本实现主体功能,采集效率,客户也很满意。曾经在一天中,最大的采集数量达到将近两千万。这也是我们没有预料到的。

前面的工作主要给用户提供的是云端的采集服务。现在又提出一个需求,能否编写一套单机版的亚马逊采集,直接提供给用户采集使用,并且需要受到我们服务器的权限限制。初步的方案是使用JavaFX构建一个Java桌面应用,里面的采集核心流程跟之前的分布式采集完全一样。

还有另外一种思路是按照爬盟众包采集新浪微博的形式,我们给用户分配采集任务,裸机接受采集任务,众包的形式采集数据。但是这个方案跟我们目前的需要不符合,可以不考虑。

时间: 2024-12-18 23:30:11

亚马逊云平台采集转单机采集实现的相关文章

Day 1之后,AWS亚马逊云给出了Day 2人工智能生存指南

1997年,亚马逊发表了著名的"Day 1"致股东信,贝索斯在信中说" this is Day 1 for the Internet and, if we execute well, for Amazon.com". 在过去的20年间,亚马逊一直保持在Day 1状态.20年后,贝索斯再次在股东信里强调,"Day 2公司将停滞不前,接着将变得无关紧要,然后将经历痛苦的衰退,直至最终死亡.这就是为何我们总是要做Day 1公司的原因." 尽管贝索斯所在

亚马逊云、阿里云、腾讯云三国鼎立-横向对比

随着亚马逊AWS步入中国市场,阿里云和腾讯云进军国际市场,目前我们所看到的,是一种愈来愈明显的三国鼎立的态势,亚马逊云.阿里云.腾讯云逐渐割据国内云服务的产业版图. 阿里云.腾讯云.亚马逊云到底该选谁?谁的性价比高?谁又更适合我?恐怕大家都是各执一词,说什么的都有.我也曾为此而困惑,相信很多人也是一头雾水吧.不过,通过近期研究,对这几个厂商有了一定的了解,做一个横向对比,如下: 一.厂商规模 亚马逊AWS,论全球线路资源和数据中心实力,亚马逊是毋庸置疑的行业老大.2006年开始涉足云计算,今年8

AWS系列之一 亚马逊云服务概述

云计算经过这几年的发展,已经不再是是一个高大上的名词,而是已经应用到寻常百姓家的技术.每天如果你和互联网打交道,那么或多或少都会和云扯上关系.gmail.github.各种网盘.GAE.heroku等各种服务都属于云服务的范畴.那么云计算的定义到底是什么?这里有摘自wiki的定义. Cloud computing in general can be defined as a computer network which includes, computing hardware machine o

亚马逊云代码部署(NodeJS)

首先需要使用ssh或者putty登陆AWS ec2的linux实例(在Windows中使用putty连接linux实例参见:在Windows中连接亚马逊云服务器). 一 .为了方便文件传输  需要安装两个软件 1. winscp  WinSCP是一个Windows环境下使用SSH的开源图形化SFTP客户端.同时支持SCP协议.它的主要功能就是在本地与远程计算机间安全的复制文件. 支持基于SSH-1.SSH-2的SFTP和SCP协议[2] 支持批处理脚本和命令行方式 多种半自动.自动的目录同步方式

新浪云、阿里云、百度云、谷歌云、亚马逊云

新浪云:http://sae.sina.com.cn/ 阿里云:http://www.aliyun.com/百度云:http://yun.baidu.com/谷歌云:https://developers.google.com/appengine/?hl=zh-cn亚马逊云:http://aws.amazon.com/ @云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备. (引自wikipedia) 具

[转]Amazon AWS亚马逊云服务免费一年VPS主机成功申请和使用方法

今天部落将再次为大家介绍如何成功申请到来自亚马逊的Amazon AWS免费一年的VPS主机服务.亚马逊公司这个就不用介绍了,是美国最大的一家网络电子商务公司,亚马逊弹性计算云Amazon EC2更是鼎鼎有名. 之前部落介绍的AppFog空间.pagodabox空间都是用的亚马逊云服务的,这里还有免费VPS可以申请使用的: 1.微软全能VPS:Windows Azure微软云平台免费VPS申请使用:任选内存大小操作系统 2.台湾VPS主机:MiCloud免费VPS主机512MB内存无需信用卡申请即

谷歌云微软云亚马逊云对比

谷歌云 数据中心网络 据市场研究公司Gartner称,云计算是个200亿美元的市场,并且明年将会再增长35%.Google在这个日益增长的领域排名前三位.为了提升在云计算市场的地位,Google将大规模扩充其数据中心网络,用技术迎接挑战,这符合Google的传统. 当前Google有4个数据中心,但许多国家的监管机构要求本国公民的数据不能离开本国.通过建设更多的数据中心,Google能够在遵守当地法律的前提下,更快地向更多企业提供服务.而亚马逊当前有12个数据中心,并且计划再建5个. 未来几个月

手把手教你用亚马逊云搭建免费VPN服务器

第一步 注册亚马逊云(已注册直接进入第二步) 开始前需要准备好:有外币支付功能的信用卡一张(注册需要,不扣钱).Email地址.电话(手机更方便一些) 访问 http://aws.amazon.com/ 点击Sign Up按钮进入Sign In or Create an AWS Account页面 填入E-mail地址 单击I'm a new user单选框 单击Sign in using our secure server按钮进入Login Credentials页面 My name is后面

使用亚马逊云服务器EC2做深度学习(四)配置好的系统镜像

这是<使用亚马逊云服务器EC2做深度学习>系列的第四篇文章. (一)申请竞价实例  (二)配置Jupyter Notebook服务器  (三)配置TensorFlow  (四)配置好的系统镜像 配置深度学习的环境是一个非常繁琐的过程.它要求你对Linux命令有一定地了解,与此同时各种深度学习库.驱动更新十分频繁,有可能明天教程里的安装脚本就不管用了. AMI AMI就是解决方法.AMI是可以直接在EC2启动的系统镜像,有的系统镜像已经配置好了使用GPU的深度学习环境,这样启动实例后,你就可以直