深刻解读大数据技术在工业界的应用

大数据及其价值

大数据是近几年非常热门的一个概念。到底什么叫做大数据呢?简单而言,就是具备4V属性的数据:

Volume:量非常大,大到一台计算机所无法处理的数据;

Variety:来源广泛,包括文本、图像、语音、机器传感器信号、日算计程序日志等;

Velocity:产生速度非常快;

Veracity:准确性要求高。

关于大数据,有许多大家耳熟能详的经典案例,比如沃尔玛的“啤酒和尿布”案例;Target商场预测17岁女孩怀孕的等。

*对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 .

通过这些例子,我们可以了解到大数据具有非常大的潜力和应用价值。如果能够分析出数据的潜在含义,它将在生活中的各个领域发挥巨大的作用。

越来越多的企业和组织也确实在挖掘数据的力量。

比如:电商网站会根据用户的历史浏览记录做个性化推荐;音乐网站则根据用户听歌历史和有同样爱好者的听歌记录,给用户推送喜欢的音乐;还有现在非常热门的自动驾驶、图像识别等技术,都是以大数据为基础的。

数据

科学

什么是数据科学?

那么多数据,通过什么手段才能挖掘出它们的潜在价值?

在这方面,人们已经做了许多研究和尝试。数据科学就是这些研究和探索的成果——

数据科学是一门新兴学科,专门研究利用数据学习知识。其目标是通过从数据中提取出有价值的部分来生产数据产品。

它也是一门交叉学科,采用数据统计和机器学习的方法,通过挖掘数据背后的潜在含义来帮助人们理解问题,解决问题,从而辅助人类决策。

数据科学结合了诸多领域的理论和技术,包括:

应用数学

统计

模式识别

机器学习

数据可视化

数据仓库

高性能计算

等……

新兴领域

很多每天都在报道数据科学将是未来一个有前途的新兴领域,它会给各个产业都带来变革。

从“大数据”一词在中国的普及程度就可以知道,这一概念的热度非常高。

很多高校都已经开设了数据科学专业或相关课程,那么我们可以预期,未来数据分析的人才量将会呈指数上升。

不过,到目前为止,数据分析还是一门人才紧缺的学科,专业的数据分析人才还有很大缺口。

本来许多行业都会用到数据分析的知识,因此,很多不同领域的优秀人才纷纷转向数据分析岗位,这也是当前的一大趋势。

自学数据科学

其实,只要有志于此,即便没有在学校里专门学习过数据科学,也可以通过自学、培训和交流活动等手段来提升自己。以一种自我驱动的方式掌握这门学科的知识。

可以选择:

从MOOC网站上学习;

与专业人才进行交流;

参加一些真实场景的比赛;

等,都可以学到非常多的理论知识,并获得项目经验。

数据科学家的基本素质

专业通过应用数据科学来解决实际问题的人,叫做数据科学家。

成为数据科学家需要具备哪些知识呢?

数据科学是一门交叉学科,数据科学家必须同时具备计算机、数学和统计的专业知识。

计算机——需要了解基本的算法和数据结构,命令行操作,能够编写爬虫获取数据,并掌握如Python,R或Scala这类适合数据分析的编程语言。

统计学——要掌握基本的概率分布,假设检验,以及AB Test的基本知识。

数学——大学高等数学学到的知识,比如微积分,线性代数和概率论。

此外,还需要掌握一些分布式存储、数据处理等方面的系统和工具,比如 Hadoop, MapReduce, AWS等。

数据科学家还需要具备良好的沟通能力。

这样才能够将数据分析的结果展示出去,让没有任何背景的人也能很快明白数据背后的真实价值,有什么具体的用处,以及未来能提高什么方面的能力。

数据可视化也是必备技能,因为要在分析结果时做出简明易懂的图表。

总的来说,数据科学家需要掌握的东西很多——既要像工科生,会技术;也要像文科生,懂审美;还要像演说家,通过和不同部门沟通交流来理清问题思路,学习业务知识,并最后将自己的结论告诉给别人。

数据

分析的流程

数据科学为解决问题和做出决策提供了一套方法,大概分为5个步骤:

【step-1】定义问题

只有准确地定义了问题,才能知道要解决什么。

为此,数据科学家需要理解问题背景和业务知识,即business understanding。TA需要理解:

用户提出这个问题,背后真正的目的是什么?

能够帮助用户改善什么?

能够帮助用户创造多少的价值?

这个问题是不是数据可解的问题?

……

另外,还需要深入理解用户所在领域的行业理论知识,才能更好地为解决这个问题提供背景知识。

【step-2】获取数据

在理解了问题背景之后,就可以开始为解决问题寻找可以使用的数据了。

数据的来源多种多样,数据科学家需要先对数据进行理解,然后才能知道:

现有的数据是否能够支持我们解决当前问题?

现有数据的质量如何?

还需要什么数据?

……

【step-3】数据预处理

往往实际收集到的数据质量并不像在课堂项目或者比赛时拿到的数据那么好。缺失值,异常值是非常常见的。

因此,经常需要花费巨大的精力在数据的预处理上。

数据科学家们天天盯着屏幕看:

数据有无缺失?

如果缺失应该如何处理?

这个值从图上看偏离很远,是应该丢弃还是保留其特殊含义?

……

还有,通常情况下,在数据库当中有大量多对多关系的数据表,关联十分复杂。理清这些关系就是一个非常劳神且无聊的过程。

往往为后续训练模型准备好一个切实可用的数据框表,就要花费掉投入整个项目的大部分精力和资源。

日常做项目中,可能70%~80%的时间都用在了这一步。数据分析其实是一个非常乏味的工作。

【step-4】设计分析方法、分析、并评估结果

数据清洗好后,我们就进入了数据分析的核心步骤——决定如何分析数据,从而最大程度发挥它们的价值。

数据分析大概包括如下内容:

【4.1】探索性分析

了解数据的字段含义、数据量;检查数据质量(有否异常值、缺失值、拼写或输入错误等)。

【4.2】统计分析

统计各个字段的数据分布,最大值、最小值等。

可以运用可视化手段来发现数据中存在的规律或相关性。

【4.3】数据处理

思考如何提高数据质量:

怎么处理异常值、缺失值?

数据的特征是否有用?

是否需要加工特征?

如何选择特征?

……

最后将处理干净的数据用于训练模型。

【4.4】数据建模

数据模型多种多样,有解决分类问题的模型,也有解决预测问题的模型。

首先我们需要选择模型类型,之后利用处理好的数据对模型进行训练,并进行验证和测试。

然后进入迭代的过程:

需要评估模型在实际生活中是否有用——有时候在训练时有很高精确度的模型,在实际运行中并非如此。

如果模型在实际应用中反馈比较差,就需要回到问题的定义阶段,去了解是否是问题定义不合适,或者是数据特征不明显等。

只有不断迭代才能在实际的生产生活中得到更好的效果。

【step-5】展示结果/结果上线

在获得了足够实用的模型,或者分析结果之后,还需要向其他人(用户、决策者)解释分析结果,清楚地表达结果的价值。

当模型准备就绪后,可以请工程师部署上线,到产品中去实现其功能。

在工

业界应用大数据的难点

不得不说,大数据技术在工业界的应用相较于新兴的互联网行业,遇到了更多的障碍:

观念的问题

首先,最核心的还是人的问题。

对于传统行业的从业人员来说,他们对于大数据知之甚少,既不了解数据的价值,也不知道大数据可以为他们做些什么。

具体表现就是他们常常无法清楚的定义一个问题,甚至不明确到底什么问题是数据可以解决的。

他们或许认为大数据非常厉害,可以解决任何问题,却不明白具体要解决什么问题。

反过来,数据科学家又不是业务领域的专家,对领域知识了解甚少,可能会盲目的提出一些项目方向,而这些解决方案对于世界业务又不是很有用。

如此一来,很可能就陷入了“大数据无用”的恶性循环。

体制的问题

许多工业企业是大型国企、央企或者大型民企。都存在着一套复杂而缓慢的审批流程。人员又对数据科学持有观望的态度。

因此在与数据企业分享数据资源上会非常困难。

总要花费大量的时间和业务人员进行沟通,说服他们开放数据给数据专业人员。

可能数据分析本身用不了太久时间,但为了获取数据,光申请流程就需要耗费几个月甚至更久的时间。

数据的问题

客观而言,工业大数据和互联网数据也有很大的区别。

工业领域人为录入的数据非常稀少,大部分数据来自于机器数据(传感器信号)。本身机器系统兼容性不好,导致数据种类繁多,缺乏统一标准。

而且,很多现实的生产环境条件恶劣,所在地偏远(郊区或者人非常少的地方)。导致数据传输不及时,或者精度不可靠,数据质量可能会很差。

甚至因为一些特殊原因,造成数据大部分缺失,使得后期的数据分析偏差严重。

多数中小型企业没有高质量的数字化系统来记录数据,还在采用非常落后的方式——用纸币记录工作流程参数或设备参数。这些数据可能最后根本就没有被存储下来,都被浪费掉了。

而大型企业,则往往拥有多套系统,缺乏同步管理,数据的采集也没有固定流程和策略,加之数据量庞大,造成最终数据质量不高。

用户预期管理的问题

到了数据建模阶段,还会遇到很大的问题:工艺人员往往非常关心模型的可解释性和控制性。

如果运用非常复杂的算法,比如SVM或者神经网络,是无法解释问题的,这时工艺人员则会有疑惑。

即使这些高级算法取得非常好的结果,他们也不是很放心。他们需要在任何时刻都能对模型进行控制。

数据科学家用高级的神经网络去做,但把训练好的模型交给工艺人员后,会收到他们的质疑。这也是在工业数据分析中比较无奈的一点。

模型质量和效率的问题

在工业大数据分析中,用户普遍对模型的精度要求更高,容错率更低。

因为分析结果都是要投入的实际的生产操作环节当中去的。如果不能保证精度的话,可能会造成很大的损失。

比如在化工生产环节,如果数据分析模型的结果出现纰漏,是有可能造成重大事故的!

所以,在得到可靠验证之前,不应该把模型应用到生产环节。

另外,工业IOT的通信频率一般在毫秒级别。机器产生数据的数量也非常庞大,一般都是按TB来计算的。

因此工业大数据对于数据的传输和存储有很高要求,需要制定一套定制化的数据存储解决方案,才能符合工业大数据的场景。

而且,工业数据通常是时序数据,也就是和时间相关的一种数据类型。故而需要时序数据库来存储这些数据。

这种时序数据库又必须具备分布式运算的能力,并能够容纳多元、异构的数据,对于数据的采集和存取都必须在毫秒级别。

存储数据的平台需要有基本的数据分析和可视化能力,还能够兼容不同的工业协议接口。

如此之多的要求,都是其他领域的数据分析很少遇到的。

工业

大数据应用场景

我们来看两个工业大数据分析中的典型场景:

故障预警

传统工业界的做法:设备的维护发生在故障之后。

一旦设备发生了故障,首先需要停机;然后会花费很长时间去寻找问题来源;之后才实施维修。

显然这样会耽误生产运行,造成成本损失。

如果能够通过分析历史的工矿数据,了解设备在正常运行下的参数,历史上发生问题时参数的变化,就可以通过分析工矿数据来建立大数据模型,做到故障预警——当设备出现同样问题之后(真正发生故障之前),设备就会发出预警。

这样,维修人员就能在设备停机之前对其进行维修处理。

通过分析历史上经常损坏的设备和部件信息,就可以提前准备部件,避免当设备出现故障的时候再去采购。这也降低了零部件更换过程中的等待时间。从而提高整体的企业运行效率效率。

产品质量优化

提高产品的良品率也是大数据在工业界应用的一大场景。

在生产过程中,工作人员往往无法实时对参数进行优化,只能在生产结束后对产品进行检测,并且回溯到生产时的设备参数,再进行研究。

这样就产生了滞后性——无法在生产过程中阻止不良产品的生产。

如果通过对历史工艺的参数分析,发现最优的参数组合,并在设备生产的过程中实时监控这些工业参数的变化,随时进行调整,就能够有效提高产品的良品率,减少不必要的损失。

因此在工业中,对于设备有一个全生命管理周期的概念,这也是工业大数据中一个重要的领域。

工业

大数据应用的前景

道路曲折,前途光明

传统工业企业从自身的储备而言,一般不具备大数据分析的能力,需要引入互联网大数据的技术和人才。

但因为传统行业偏保守,想要进入其中非常困难。

不过,一旦被工业企业认可,就会发现一片×××。可惜很多人往往在此之前就倒下了。

在做工业大数据分析的时候,首先需要一两个成功的、可落地的案例,让工业界人士看到之后,跨过心里这道坎,才会愿意分享数据,探讨行业知识。

因此必须有足够的耐心的和传统工业人士沟通,需要花费很长时间在交流和获取他们的信任上。

进入到正式工作阶段后,在定义问题时,就要搞清楚:问题到底是不是是数据可以解决的。

不是所有的投资都有回报,也不是所有的问题都能用数据解决,但是一定有能够用数据解决的问题。

最好的方法就是坐下来和传统工业企业内的行业专家进行交流,通过不断迭代提出真正可解决的数据方案。

不仅是和具体的执行人员沟通,还需要对企业的决策者进行宣贯、交流。他们了解了大数据,才会有胆量去尝试。

工业大数据分析一般是从大型企业开始采用的。通过大企业的应用落地,再同类型进行推广,比较容易被其他企业借鉴。

而对于中小企儿,让他们用大数据方法解决问题之前,需要为他们建立一套完善的数据收集机制,让他们先能够收集数据。待数据完善后,再做进一步的分析。

不必迷信大数据

传统行业的问题,也不是一定要有大数据才能解决的。

对于工业大数据来说,不管生产中的工艺参数还是特征,如果单纯将这些数据整理好放入模型进行训练,往往不会取得好的效果。

更加重要的是要去理解这些数据背后的物理意义。

有时候运用机理模型或者专家经验可以阐释出新的特征。这样比简单地把数据扔进模型好得多。

数据分析只是一个辅助的方法,依据行业内积累已久的业务经验和理论进行分析,结果可能会比大数据更加可靠。

所以,对于很多有志于从事工业大数据的人来说,一定要增加自己的领域知识积累。

另外,很多情况下工业数据量很小,通过简单的统计分析就可以得出结论,而不必采用什么炫酷的大数据技术。

在与用户沟通的时候,我们既要强调大数据的实用性,又不能盲目地说大数据能解决所有问题。也要承认很多问题不用大数据也能解决。

*对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 .

原文地址:http://blog.51cto.com/14042734/2329727

时间: 2024-11-09 10:54:12

深刻解读大数据技术在工业界的应用的相关文章

大快大数据技术架构的构成模块

大数据也不是近几年才出现的新东西,只是最近几年才真正意义上变得热门.火爆!而这要得益于互联网信息技术的快速发展,网络改变世界.改变生活,大数据技术的应用让这样的改变更为深刻. 关注大数据或者是互联网方面新闻的人应该知道,大数据已经上升到了国家战略的高度.可以说这是时代发展的必然趋势,从国家战略层面推进大数据技术的普及与应用,一个至关重要且非常核心的问题--数据安全问题就非常突出.解决数据安全问题,必然要回归到大数据开发所使用的框架! 国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准

大数据技术:让看病更加靠谱!

在早期,大部分医疗相关数据以纸质形式存在,而非电子数据存储,如正式医疗记录.费用记录.护士和医生书写的病例记录.处方药记录.X光记录.磁共振成像(MRI)记录.CT图像记录等.随着强大的数据存储.计算平台和移动互联网的发展,医疗数据的爆炸式增长和快速的电子数字化成为趋势.上述医疗数据在不同程度上转化为数字.移动互联网.大数据.云计算等领域的技术与医疗领域的跨境整合.新兴的技术和新的服务模式迅速到医疗的各个方面,使人们的医疗方式发生了重大变化.为我国医疗事业带来了新的发展机遇. 大医疗数据应用 大

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

京东基于大数据技术的个性化电商搜索引擎

介绍京东个性化搜索引擎应用场景,和如何利用大数据技术实现个性化搜索.京东个性化场景包括基于行为.偏好.地域.时间.好友关系等维度,其中偏好是个性化搜索重点考虑的内容,分享会介绍搜索如何应用长期偏好.实时偏好以及偏好在不同的平台(web.移动.微信/手Q)起到的作用.在实现个性化搜索当中会分享京东搜索在解决个性化过程中遇到的问题.使用的技术.以及经验和思考. 原文:http://www.infoq.com/cn/presentations/jingdong-personalized-search-

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2016)将在北京新云南皇冠假日酒店隆重举办. 图片描述 中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(Hadoop in China,HiC).从2008年仅60余人参加的技术沙龙到当下数千人的技术盛宴,目前已成为国内最具影响力.规模

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

下载基于大数据技术推荐系统实战教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

地址:http://pan.baidu.com/s/1c2tOtwc  密码:yn2r 82课高清完整版,转一播放码. 互联网行业是大数据应用最前沿的阵地,目前主流的大数据技术,包括 hadoop,spark等,全部来自于一线互联网公司.从应用角度讲,大数据在互联网领域主要有三类应用:搜索引擎(比如百度,谷歌等),广告系统(比如百度凤巢,阿里妈妈等)和推荐系统(比如阿里巴巴天猫推荐,优酷视频推荐等). 本次培训以商业实战项目作为驱动来学习大数据技术在推荐系统项目中的应用.使得学员能够亲身体会大数

首届中国大数据技术沙龙会议

当今最红的名词是大数据,掌握趋势,才能赢得未来!首届中国大数据技术沙龙会议暨超人学院技术交流会,邀请各位前来参会.在这里,你可以了解大数据技术的趋势,掌握企业对于技术的最新动态,学习和分享你在工作中的经验及问题,你可以分享也可以提问,让你掌握大数据最前沿的技术.奔跑吧,兄弟!赶快报名参加!更多精彩内容抢先看!