机器学习如何帮助解决大数据转换和管理问题

  机器学习如何帮助解决大数据转换和管理问题

  尽管大数据分析技术取得了惊人的进步,但我们在很大程度上仍需要手动来完成重要任务,例如数据转换和数据管理。随着数据量的增长,手动完成任务与自动化产生的生产力差距越来越大,这使得以人工智能和机器学习为基础的自动化趋势越来越有市场。机器学习可以帮助缩小这一差距吗?

  坦率地说,数据转换和数据管理问题颇具挑战性。各行各业的公司都渴望将机器学习与他们的数据库结合使用,以获得竞争优势。但是,数据不干净、数据未集成、不可比较和不匹配的数据问题层出不穷,使公司的大数据计划陷入困境。

  许多从事机器学习的数据科学家花费了90%的时间来查找、集成、修复和清理其输入数据。 人们似乎没有意识到数据科学家不再是数据科学家,而是成为了数据集成商。

  不过也有一个好消息,机器学习本身可以帮助机器学习。这个想法是利用算法的预测能力来模拟人类数据处理。这不是100%完美的解决方案,但它可以帮助缓解工作强度,让数据科学家转向真正的创新工作。

  您可以在任何你能买到的地方购买ML,通过使用ML来来帮助您完成ETL的转换部分。

  转换和管理数据

  虽然它们在某些方面是相似的,但是数据管理和数据转换之间有重要的区别。数据转换是数据集成过程中的第一步,其目标是将异类数据转换为通用的全局模式,组织可以提前制定该模式。自动脚本通常用于将美元转换成欧元,或将英镑转换成公斤。

  转换阶段之后,分析人员开始管理和分析数据。第一步通常涉及运行“match/merge”函数来创建与相同实体对应的记录集群,例如将不同但拼写相似的名称分组在一起。像“编辑距离”这样的概念可以用来确定两个不同实体之间的距离。

  然后使用更多的规则来比较各种实体,以确定给定记录的最佳值。公司可以声明最后一项是最好的,或者使用一组值中的公共值,这样就可以产生最佳数据。

  几十年来,这种通用的两步过程已在许多数据仓库中使用,并且在现代的数据湖中继续使用。但是,ETL和数据管理在很大程度上未能跟上今天的数据量以及企业面临的挑战规模。

  例如,这需要预先定义一个全局模式,这阻碍了许多ETL的进行,这些工作试图集成更多的数据源。在有些时候,程序员无法跟上必须设置的数据转换规则的数量。

  如果您有10个数据源,您还可以这样做,但是,如果您有10,000个,那就不太可能了。

  显然,这需要一种不同的方法。

  在小型企业中,您可能可以提前创建全局数据模式,然后在整个组织中强制使用它,从而省去了昂贵的ETL和数据管理项目的成本,一起放在数据仓库中。但是,在大型组织中,这种自上而下的方法不可避免地会失败。

  即使大型企业中的业务部门彼此非常相似,它们记录数据的方式也会有微小的差异。这些微小差异需要加以考虑,然后才能对其进行有意义的分析,这只是企业数据性质的反映。

  因此业务灵活性需要一定程度的独立性,这意味着每个业务部门都建立自己的数据中心。

  例如,以丰田汽车欧洲公司(Toyota Motor Europe)为例,该公司在每个业务国家都有独立的客户支持组织。该公司希望为250个数据库中的所有实体创建一个主记录,其中包含40种不同语言的3000万条记录。

  丰田汽车欧洲公司面临的问题是,ETL和数据管理项目的规模是巨大的,如果按照传统方式进行,将消耗大量的资源。该公司决定使用Tamr来帮助解决机器学习的挑战,而不是数据转换和使用数据管理过程。

  ETL最大的问题是已经预先定义了全局模式,如何大规模地做到这一点是个问题。需要使用机器学习进行自下向上的匹配、自下而上地构造目标模式,从规模上看,这是唯一可行的方式。

  这并不意味着机器学习提供了非常简单的方法来解决这些棘手的数据集成问题。它仍然需要大量的数据和处理能力,您通常需要一个最优秀的员工来帮助指导软件获得正确的数据分析结果与决策见解。

  这样来看的话,成本并不便宜,但这不是最重要的。但还有一个问题是,不同的供应商之间该如何选择。不同国家或地区的供应商提供的解决方案不同,而且出于一些宏观因素,会出现不同的选择。

  出于安全考虑,这些数据问题不能完全外包给其他公司,所以不要指望完全用机器学习来处理数据,人在其中的作用还是非常重要的。人与机器学习合作才能够使您的数据集成和管理效率最大化。

原文地址:https://www.cnblogs.com/jinsexiaomifeng/p/12673942.html

时间: 2024-11-01 23:05:23

机器学习如何帮助解决大数据转换和管理问题的相关文章

大数据数据分析-数据分析师八大能力培养,解决业务问题和管理数据开发

Python.R.Hadoop.Java.Spark.C++.SQL.Linux.Hive等数据科学工具和编程语言是企业对数据人才的一致要求,一些如统计分析.数据结构以及决策树理论概念和算法也在企业对数据人才的要求之列,各位想找大数据相关工作,可留点心呐!好好学理论,认真练技术,高薪不再远.R和Python是数据科学从业者两把利剑, 数据分析师八大能力培养,解决业务问题和管理数据开发项目数据分析师八大能力培养,解决业务问题和管理数据开发项目数据分析师八大能力培养,解决业务问题和管理数据开发项目数

MySQL数据库如何解决大数据量存储问题

利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,Value,DataTime).基本上每张表每天可以增加几千万条数据,我想问如何存储数据才能不影响检索速度呢?需不需要换oracle数据库呢?因为我是数据库方面的新手,希望可以说的详细一点,万分感谢!!?-0-#暂时可以先考虑用infobri

开发函数计算的正确姿势——轻松解决大依赖部署

<a name="1"></a> 前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算准备计算资源,并以弹性伸缩的方式运行用户代码,而用户只需根据实际代码运行所消耗的资源进行付费.函数计算更多信息 参考.Fun: Fun 是一个用于支持 Serverless 应用部署的工具,能帮助您便捷地管理函数计算.API 网关.

用阿拉伯乘法解决大整数相乘问题

问题 大整数相乘 思路说明 对于大整数计算,一般都要用某种方法转化,否则会溢出.但是python无此担忧了. Python支持"无限精度"的整数,一般情况下不用考虑整数溢出的问题,而且Python Int类型与任意精度的Long整数类可以无缝转换,超过Int 范围的情况都将转换成Long类型. 例如: >>> 2899887676637907866*1788778992788348277389943 5187258157415700236034169791337062

bower解决js的依赖管理备记

一个新的web项目开始,我们总是很自然地去下载需要用到的js类库文件,比如jQuery,去官网下载名为jquery-1.10.2.min.js文件,放到我们的项目里.当项目又需要bootstrap的时候,我们会重复刚才的工作,去bootstrap官网下载对应的类库.如果bootstrap所依赖的jQuery并不是1.10.2,而是2.0.3时,我们会再重新下载一个对应版本的jQuery替换原来的. 包管理是个复杂的问题,我们要知道谁依赖谁,还要明确哪个版本依赖哪个版本.这些对于开发人员来说,负担

IT大数据服务管理高级课程

IT大数据服务管理高级课程(IT服务,大数据,云计算,智能城市) 适合人群:初级 课时数量:6课时 用到技术:大数据,云计算 涉及项目:IT服务,大数据,云计算 咨询qq:1840215592 北风推荐: 资深的讲师背景,深厚的理论基础,本套课程特别适合教学课题研究与IT类的论文写作参考. 个人简历 金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于助人,在

hadoop job解决大数据量关联时数据倾斜的一种办法

转自:http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.html http://www.geminikwok.com/2011/04/02/hadoop-job解å?³å¤§æ?°æ?®é??å?³è??æ—¶æ?°æ?®å?¾æ??ç??ä¸?ç§?å??æ³?/ 数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为

SQLSERVER 文件组解决大数据量数据存储

如何使用文件组解决大数据量的读写性能差问题,具体操作步骤如下: 在企业管理器中,右键点你的数据库,选属性,选数据文件,新增一个,文件填一下,位置填一下,文件组填一个,比如abc---确定. 然后你可以右键点你数据库里面的表,设计表,再点右键,属性,然后把表文件组和文本文件组改成abc,就把你原来的表从原来的大mdf文件中分解到你的新增文件中了. 再增加文件的话,方法同上,目的就是把主文件(MDF)拆分成多个文件:利用文件组的好处是不改变数据库的数据,能把已有的mdf文件拆分成多个 最后,一定要使

FineReport层式报表解决大数据集展示问题攻略

本文以填报报表为例,通过分页的方式,来解决大数据集展示的问题. 实现的思想就是通过在SQL里筛选部分数据库数据,以达到浏览器可以合理的展示报表页面.(数据分段,语句我这采用的是MYSQL,如果要用其他数据库,请查看FineReport帮助文档) 步骤一:打开fenye.cpt文件. 模板界面如下 两个ds,和一部分数据,及隐藏的一行. 隐藏一行内容如下 这里数据的功能会在下面说起. ds1 里的内容如下 语句内容 SELECT * from aaa limit ${f},${p} 目的是从第${