12月20日,公司为了让全体员工熟悉公司新产品—“灵玖通用采集平台”的技术原理、主要特点和性能优势,方便大家在技术调用、用户运维和客户拓展中,对该采集平台有更深刻的理解和把握,特邀请到了采集平台的原始开发人员——高莘,为全体员工做了主题《第二代采集平台——“灵玖通用采集平台”介绍》的培训课程。
高莘表示,数据采集是大数据挖掘的最重要的基础,而“灵玖通用采集平台”是一款既可以对网站深度定制,也可以使用最简单的配置快速采集的系统平台,它采用智能匹配和先进的HTML5模块编辑工具满足动静态字段的配置;配备全面且直观的运行时监控系统;丰富多彩的开发接口和完善详细的SDK文档;同时支持分布采集部署,调度、数据处理,可以轻松的应对大数据在采集中遇到的各种问题。
首先,高莘介绍了这次培训课程主要内容是:平台技术创新点、数据采集系统、平台监测系统、性能与稳定性、开发计划等几个方面,然后对采集系统平台进行了详细的介绍。高莘表示,数据采集首先要提出采集请求,采集系统才会根据要求,按照采集指令进行采集任务分发,然后到分布式流数据分析平台进行数据比对、数据源设置、数据抓取、实体抽取、数据分类,最后到分布式数据存储平台进行存储。
在培训中高莘重点为大家演示了智能动态增减采集器的设置和使用方法。智能动态增减采集器是通过对数据ID、数据地址、采集功能添加、采集数量等功能项的设置来进行数据采集,而采集的方式有两种模式:一种是通用模式,既使用普通的功能设置来采集数据,一般这种模块采集的数据比较多但效果相对比较差;另一种是特殊设置模式,既按照要求对采集器进行功能设置,这种采集的效果更好,准确率高。
最后,在培训结束后进行了现场互动,高莘为大家解答了技术部门在开发和数据调用时遇到的问题并提出相应的解决技巧和方法,并解答了销售部门针对功能界面简化、页面美观及客户使用便捷等问题做了一一解答。高莘表示,“灵玖通用采集平台”是针对互联网中结构化和非结构化文本文档、图片和视频进行数据采集的多功能平台,它是由数据采集、实体抽取、深度学习、文本分类、文本摘要、数据存储与捡索、数据搜索、数据统计、采集监测等十多套组件组成,其在工作和维护中需要相互协作才能发挥最好的采集效果。随着“灵玖通用采集平台”的不断完善,在以后数据采集工作中效果会越来越好。
数据采集是公司为客户提供的重要服务内容之一,公司在原有的第一代采集平台——“黄金眼”数据采集平台基础上,总结经验、吸取不足,全新设计和开发了第二代数据采集平台——“灵玖通用采集平台”,比上一代具备更好的兼容性、更高的采集效率、更精准的采集质量和更具个性化的采集设置等诸多优秀特点。而在此基础上开发的第三代采集平台——“灵玖采集云平台”也正处在开展关键技术论证阶段。