大数据灵玖通用采集平台发布

12月20日,公司为了让全体员工熟悉公司新产品—“灵玖通用采集平台”的技术原理、主要特点和性能优势,方便大家在技术调用、用户运维和客户拓展中,对该采集平台有更深刻的理解和把握,特邀请到了采集平台的原始开发人员——高莘,为全体员工做了主题《第二代采集平台——“灵玖通用采集平台”介绍》的培训课程。

  高莘表示,数据采集是大数据挖掘的最重要的基础,而“灵玖通用采集平台”是一款既可以对网站深度定制,也可以使用最简单的配置快速采集的系统平台,它采用智能匹配和先进的HTML5模块编辑工具满足动静态字段的配置;配备全面且直观的运行时监控系统;丰富多彩的开发接口和完善详细的SDK文档;同时支持分布采集部署,调度、数据处理,可以轻松的应对大数据在采集中遇到的各种问题。

  首先,高莘介绍了这次培训课程主要内容是:平台技术创新点、数据采集系统、平台监测系统、性能与稳定性、开发计划等几个方面,然后对采集系统平台进行了详细的介绍。高莘表示,数据采集首先要提出采集请求,采集系统才会根据要求,按照采集指令进行采集任务分发,然后到分布式流数据分析平台进行数据比对、数据源设置、数据抓取、实体抽取、数据分类,最后到分布式数据存储平台进行存储。

  在培训中高莘重点为大家演示了智能动态增减采集器的设置和使用方法。智能动态增减采集器是通过对数据ID、数据地址、采集功能添加、采集数量等功能项的设置来进行数据采集,而采集的方式有两种模式:一种是通用模式,既使用普通的功能设置来采集数据,一般这种模块采集的数据比较多但效果相对比较差;另一种是特殊设置模式,既按照要求对采集器进行功能设置,这种采集的效果更好,准确率高。

  最后,在培训结束后进行了现场互动,高莘为大家解答了技术部门在开发和数据调用时遇到的问题并提出相应的解决技巧和方法,并解答了销售部门针对功能界面简化、页面美观及客户使用便捷等问题做了一一解答。高莘表示,“灵玖通用采集平台”是针对互联网中结构化和非结构化文本文档、图片和视频进行数据采集的多功能平台,它是由数据采集、实体抽取、深度学习、文本分类、文本摘要、数据存储与捡索、数据搜索、数据统计、采集监测等十多套组件组成,其在工作和维护中需要相互协作才能发挥最好的采集效果。随着“灵玖通用采集平台”的不断完善,在以后数据采集工作中效果会越来越好。

  数据采集是公司为客户提供的重要服务内容之一,公司在原有的第一代采集平台——“黄金眼”数据采集平台基础上,总结经验、吸取不足,全新设计和开发了第二代数据采集平台——“灵玖通用采集平台”,比上一代具备更好的兼容性、更高的采集效率、更精准的采集质量和更具个性化的采集设置等诸多优秀特点。而在此基础上开发的第三代采集平台——“灵玖采集云平台”也正处在开展关键技术论证阶段。

时间: 2024-10-10 14:11:18

大数据灵玖通用采集平台发布的相关文章

准独角兽袋鼠云:入围“浙江大数据灵杰榜”,获评“星禾奖创新技术企业”!

2018年7月15日,由工信部.科技部.民政厅等相关主管单位指导,浙江省大数据科技协会主办的"2018浙江省大数据产业峰会(Zhejiang Big Data Industry Conference 2018)"在杭州JW万豪酒店隆重召开. 本届"2018浙江省大数据产业峰会"以"聚智慧·创未来"为主题,内容涵盖大数据政策规划.技术创新.行业应用实践等议题,吸引了包括阿里云.科大讯飞.网易.百度.等各地知名企业参加,袋鼠云以浙江省大数据科技协会理

大数据Storm开发实时数据分析平台视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

【大数据实战】Logstash采集->Kafka->ElasticSearch检索

[大数据实战]Logstash采集->Kafka->ElasticSearch检索 https://www.cnblogs.com/snova/p/9203425.html 原文地址:https://www.cnblogs.com/chengjun/p/9280514.html

做大数据时代的“淘宝”平台,IBM数据分析战略浮出水面

(上图为IBM研究人员在展示通过数据分析提高城市交通水平) 下个世纪是大数据的世纪,是从IT走向认知计算的时代.在IT时代成就了一家超级平台,这就是淘宝,而认知时代要做的是数据的生意,那是否有一个类似淘宝的超级数据平台呢?IBM正在做这件事情. IBM在全球布局了40多个基于Softlayer的数据中心,以Bluemix作为其主力云端开发平台, 在之上通过合作和收购网罗了从Twitter到The Weather Company以及这些年投入250亿美金收购的Cognos.SPSS.ILOG.Al

大数据时代需要新安全分析平台-转载

毫无疑问,我们已经进入了大数据时代.人类的生产生活每天都在产生大量的数据,并且产生的速度越来越快.根据IDC和EMC的联合调查,到2020年全球数据总量将达40ZB.当前,网络与信息安全领域的安全数据同样具备大数据的特征,包括数据量越来越大.速度越来越快.种类越来越多. 安全数据的数量.速度.种类的迅速膨胀,导致的不仅仅是海量异构数据的融合.存储和管理的问题,甚至动摇了传统的安全分析体系和方法. 当前绝大多数安全分析工具和方法都是针对小数据量设计的,在面对大数据量时难以为继.新的攻击手段层出不穷

大数据实战之Logstash采集->Kafka->ElasticSearch检索

1. Logstash概述 Logstash的官网地址为:https://www.elastic.co/cn/products/logstash,以下是官方对Logstash的描述. Logstash是与Flume类似,也是一种数据采集工具,区别在于组件和特性两大方面.常用的数据采集工具有Sqoop.Flume.Logstash,计划将单独写一篇博文论述它们之间的区别,所以这里就不赘述,感兴趣可关注后期的博文. 2. Kafka概述 Kafka的官网是:http://kafka.apache.o

灵玖软件:大数据挖掘技术比数据更重要

数据与信息是重要的生产要素和战略资产,已在全球达成共识.然而,失去控制和无组织的数据和信息却不能很好地发挥战略资产的作用.信息挖掘是对文献.数据等信息资源对象进行分类.标引.描述.揭示,使之有序化.系统化的过程,其目的恰好是将无序的.分散的数据和信息整理成有序的信息资源,保证用户的有效获取和利用.因此,信息挖掘对于大数据资源的管理与利用具有重要作用. 同时,当前的大数据环境给信息挖掘带来了巨大的影响.正确地识别这些影响,对于凝练信息挖掘的研究方向.使其适应当前的发展环境.与国家的重大需求对接.为

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

大数据云计算openstack云平台基础到精通实践视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv