机器数据的来源
何为机器数据,就对其字面意思理解,机器产生的数据。那机器数据具体都是怎样的?比如:日志数据、监控摄像图传过来的数据、手机传过来的数据、传感器传过来的、扫码.....几乎遍布生活的点点滴滴。
机器数据的传统解决方案
对于这样的数据,以前的IT运维监控、视频监控软件、动力环境系统都有实现过,主要对设备的健康度阈值做临界告警,而视频中就是对摄像图的传过来的影像分 屏展示,独立环境对机房的温湿度监测,临界告警。以前对于机器数据分析在很大意义上是没有进展的,而分析就是用数据说话,随着大数据产生新的生产形态已经 产生。
现在的解决方法
现在机器数据解决方案就是依靠大数据的技术,将数据整合建立索引,提供便利的搜索和查询服务,在此基础上分析整合数据,为客户提供数据的分析展示。
架构
对于大数据机器数据处理应当是这样一种逻辑,数据获取过来,我们根据数据来源对数据做分组管理、应用模型构建,构建好之后根据需要抽取数据重要字段,抽取字段时我们可根据现有的经验对数据一种预警处理,字段抽取之后对数据进行索引,构建查询服务。构建定时任务之后去分析这些数据的规律性,总结一些事件发生的规律为生产和维护提供一些建设性的意见,我强烈建议这些事件数据存储习而来,作为一个机器的病例,十年的这份数据是一个什么样概念的含金量,对使用者和生产者来说是有什么样的价值。对待这样一个处理逻辑的应该采取什么样的技术架构呢?如下图:
在这个架构中,虚线框中的Spark、Hadoop、Zookeeper、Hive、ES这些构建是一个运算和存储的平台,在这块ES和SOLRcloud 都是一样的,两者都是分布式的,至于运算以流式计算为主,Strom和Streaming各有优势,任意取舍,ES和Solr都能自己存储亦可以放到HDFS中,两种方法也各有优势。
es节点加多时,自动迁移数据分片,倘若数据存到HDFS中,存储是一整块,没有迁移这样一说,当查询的服务量大时我们只需要建立查询节点做负载均衡即可,不用考虑数据的迁移等等不变,而且数据存在分布式文件系统中不管是存储量和安全性的要求上来说,都是不错的选择。
未来是怎样
随着大数据技术的兴起,这些传统的东西正在演变,正在演变为一种新的模式,而且借助于大数据分析的可视化和存储,让这些沉默了许久的语言发出它应有的声 音,让人们知道他们虽然是机器,但是也有生老病死的、也有喜怒哀乐,它们也在用用自己的方式发声。我们都知道“啤酒与尿布”的故事,这两个看似毫无关系的 两件事物,硬是被人给发现了规律并广泛的应用在推荐系统中,这就说明一种莫名联系的重要性。而对于机器数据来说,那就更重要了,数据本身并没有特征,但是 在发生其他事物对自己的影响这种关系,是最不容易被注意的。其实万事万物都有关系,没水人活不了,没电机器跑不起来,机器CPU长时间峰值对应用肯定是有 影响的,CPU大了是谁在消耗,对其他有没有影响,生产线上的生产流程,中间的这一环节断了,是什么原因产生,再发生这件事时,伴生是什么事情,他们之间 都有什么样的联系呢?工业的4.0是一场革命,可这一场革命到底会给生产一个什么样的颠覆呢?
我的答案是没人说得清,倘若有生产厂家愿意花钱去搞一个大数据研发团队做自己的一套定制售后服务的大数据平台,或者是请软件公司做一个大数据这样的平台, 完成都是可以的,生产消费的数据共享,连锁推荐,一系列的一站式选择购买服务,将会成为很有竞争力的,那每个厂家将不再是生产商,它是一个体系,他有自己 的采购、自己的生产、自己的人事调度,自己的销售平台。厂家的角色正在演变,所有的资源被整合起来,它有自己的固定的客户群,自己的客户不光需要的自己生 产的物品,还有其他的厂家的产品,这样就演变为了广告商,强强联合的最佳组合。假若事务发展的极端化,我想应该是这些大的网购平台的小型化,工厂要发展就 必须拿回自己生态体系缺失的那一块。
工业4.0说,数据将会是第一生产力,工厂能将这生产力拱手交给其他人吗?以前听说,互联网到后来的互联网+,而后面的我想应该是大数据时代和大数据+的这样一种生产模式。