数荟集分布式采集平台试用报告

一、概述

本产品是分布式、速度快、稳定、适用采集范围广、企业级产品,适合大数据量采集(日采集量在几千万、上亿的数据量级别),对时效性要求高的企业,比如舆情公司和大数据分析公司,数据实时监控公司等。

二、具体描述

1、分布式

由一台调度服务器和多个采集节点组成分布式架构,调度服务器可以同时管理多个节点节点,比如对100台采集节点同时进行重启、同时进行规则发布等操作,可以在统一的界面上查看每个节点的运行情况,提供采集节点预警机制。多个采集节点协同工作,有效避免不同采集节点重复采集数据。

2、速度快

我们的产品不同于市面上其他爬虫软件,本产品纯后台进程运行,不需要渲染图形界面而是直接解析报文格式,速度大概是其他产品的30~100倍。

3、稳定

可以24小时不间断运行,运行稳定,已有客户使用我们的产品运行近1年时间依然运行良好。

4、采集范围广

本产品可以采集任意格式和形式的数据,比如可以采集百度地图数据、高德地图数据、可以采集手机APP数据、可以采集指定网站的全量数据。这些能力是市面上其他采集软件不能做到的。

5、采集数据格式广

可以采集html、xml、json、图片文件、视频文件、word文件、pdf文件、excel文件等所有格式都能够采集。

6、有效突破防采集机制

内置多种突破防采集方法和解决方案,有效增加采集范围

总之我们的客户定位在采集数据量大、时效性高的大数据企业,是真正意义上的企业级产品,不同于市面采集软件(只能做小规模数据量的采集,而且采集范围有限)。我们的产品可以节省企业一半以上的爬虫工程师的人力资源。数据采集看起来简单,但是要实现大数据量采集和全量数据的稳定采集是一个非常有难度的事情,现在爬虫工程师紧缺,而且大多经验不足,即使招到爬虫工程师也未必能解决所有爬虫问题,从目前来看我们的产品市场需求很大,随着大数据的兴起会越来越大。

时间: 2024-10-07 06:00:35

数荟集分布式采集平台试用报告的相关文章

分布式云平台基础服务

Net 分布式云平台基础服务建设说明概要 1)  背景 建设云平台的基础框架,用于支持各类云服务的业务的构建及发展. 2)  基础服务 根据目前对业务的理解和发展方向,总结抽象出以下几个基础服务,如图所示 3)  概要说明 基础服务的发展会根据业务的发展,调整和完善,也会不断的改进,演变及完善:当然根据目前公司的现状和对基础服务的迫切程度,基础服务各模块的定位和发展预期将如下所述. 1)     数据库中间件 公司现状: 1)     对多种类型数据库的支持需求迫切,如同时支持mysql,orc

.Net 分布式云平台基础服务

.Net 分布式云平台基础服务 1)  背景 建设云平台的基础框架,用于支持各类云服务的业务的构建及发展. 2)  基础服务 根据目前对业务的理解和发展方向,总结抽象出以下几个基础服务,如图所示 3)  概要说明 基础服务的发展会根据业务的发展,调整和完善,也会不断的改进,演变及完善:当然根据目前公司的现状和对基础服务的迫切程度,基础服务各模块的定位和发展预期将如下所述. 1)     数据库中间件 公司现状: 1)     对多种类型数据库的支持需求迫切,如同时支持mysql,orcale,s

.Net 分布式云平台基础服务建设说明概要

1)  背景 建设云平台的基础框架,用于支持各类云服务的业务的构建及发展. 2)  基础服务 根据目前对业务的理解和发展方向,总结抽象出以下几个基础服务,如图所示 3)  概要说明 基础服务的发展会根据业务的发展,调整和完善,也会不断的改进,演变及完善:当然根据目前公司的现状和对基础服务的迫切程度,基础服务各模块的定位和发展预期将如下所述. 1)     数据库中间件 公司现状: 1)     对多种类型数据库的支持需求迫切,如同时支持mysql,orcale,sqlserver这些数据库.最多

SequoiaDB巨杉数据库携手民生银行分布式数据管理平台

日前,SequoiaDB巨杉数据库成功中选民生银行新一期"年度生产运营商业软件许可和服务采购"项目,再次携手推进分布式数据库管理平台建设.自从2014年正式和民生银行建立合作,巨杉数据库至今已经管理超过2PB的数据,节点数超过130台物理服务器,并已经在数据中台.分布式影像管理等多个核心业务系统.平台规模使用. 民生银行简介:民生银行是中国第一家主要由民营企业发起设立的全国性股份制商业银行,截至2017年末,中国民生银行已经成为资产总额59,020.86亿元,一级资本净额超过3800亿

分布式任务调度平台SIA-TASK的架构设计与运行流程

一.分布式任务调度的背景 无论是互联网应用或者企业级应用,都充斥着大量的批处理任务.我们常常需要一些任务调度系统来帮助解决问题.随着微服务化架构的逐步演进,单体架构逐渐演变为分布式.微服务架构.在此背景下,很多原先的任务调度平台已经不能满足业务系统的需求,于是出现了一些基于分布式的任务调度平台. 1.1 分布式任务调度的演进 在实际业务开发过程中,很多时候我们无可避免地需要使用一些定时任务来解决问题.通常我们会有多种解决方案:使用 Crontab 或 SpringCron (当然这种情况可能机器

宜信开源|分布式任务调度平台SIA-TASK的架构设计与运行流程

一.分布式任务调度的背景 无论是互联网应用或者企业级应用,都充斥着大量的批处理任务.我们常常需要一些任务调度系统来帮助解决问题.随着微服务化架构的逐步演进,单体架构逐渐演变为分布式.微服务架构.在此背景下,很多原先的任务调度平台已经不能满足业务系统的需求,于是出现了一些基于分布式的任务调度平台. 1.1 分布式任务调度的演进 在实际业务开发过程中,很多时候我们无可避免地需要使用一些定时任务来解决问题.通常我们会有多种解决方案:使用 Crontab 或 SpringCron (当然这种情况可能机器

容器集群管理平台的比较

容器化和微服务是当前最热话题,不久之前,笔者(据说因为现在都不用笔了,"笔者"的称谓已经不合适了,因为输入用键盘,叫"键人"更为合适)参加QCon上海一个微服务监控的Session,场面爆棚,我不得不在拥挤的过道听完了整个session.随着要管理的容器越来越多,容器的集群管理平台成为了刚需! Docker Swarm Swarm是Docker公司在2014年12月初新发布的容器集群管理工具.它可以把多个主机变成一个虚拟的Docker主机来管理.Swarm使用Go语

基于低压电量采集平台DW710C的基础开发

实验课题 (1)自定义通信规约,采用java或C++编写简单的PC端上位机软件,实现采集器与PC机的通信.实验可在DW710C-PC工程下进行. (2)实现LCD显示字符.数字.汉字和简单的图像,并能根据上位机发送的命令做相应的显示.此实验需要掌握LCD屏幕的显示原理(可参考LCD屏幕指导手册),并编写程序控制LCD显示(可参考工程DW710C-LCD):知道如何用字模提取软件提取字模:另外还要修改采集器端接收到的命令的解析程序,实现不同命令显示不同内容. 实验说明 采集器的一个485接口与RS

大数据灵玖通用采集平台发布

12月20日,公司为了让全体员工熟悉公司新产品-"灵玖通用采集平台"的技术原理.主要特点和性能优势,方便大家在技术调用.用户运维和客户拓展中,对该采集平台有更深刻的理解和把握,特邀请到了采集平台的原始开发人员--高莘,为全体员工做了主题<第二代采集平台--"灵玖通用采集平台"介绍>的培训课程. 高莘表示,数据采集是大数据挖掘的最重要的基础,而"灵玖通用采集平台"是一款既可以对网站深度定制,也可以使用最简单的配置快速采集的系统平台,它采