聚焦丨世纪之症 -数据孤岛

20世纪的信息化征程,从历史维度来看,也是千年未有之变局。我们有幸目睹并见证了这段峥嵘岁月。也许100年后,人类仍然会感慨20世纪那段开创新历史的“信息革命”。

信息不仅构成了大多数部门的基础,而且它更是变成了可贸易的资源和商品,事实上,没有那个人类经验的方面不受信息的影响。

21世纪,信息技术给人类创造了新的生活方式,但信息化也给人们带来很多困扰。信息技术为我们创造了一个虚拟的世界,虚拟现实能被用来代替物理现实。由于人类记录和处理信息的能力有限,故软件记录信息称为趋势,因为软件应用缺乏整体规划,软件的建造呈现混乱状态,对于数据的应用逐渐进入了深水区,“数据孤岛”的问题逐渐凸显出来。

比如说,各个企业在开展业务过程中,积累了不同维度、不同类型的客户数据。这些数据都是随着企业各自的业务发展自然积累起来的,形式各异,存储在不同的软件系统中,如财务软件、CRM系统、ERP系统等,彼此分割,形成了企业内部的一个个“数据孤岛”。

互联网领域,也同样出现“数据孤岛”的问题。如果想在一篇微信文章中,插入一些外部的链接,是做不到的。这就是微信公众号的封闭性。有了封闭性,数据就会被圈定在产品之中。正是这些封闭的系统,把整个互联网,变成一个个的“数据孤岛”。今天的移动互联网时代,新巨头字节跳动、美团、京东、拼多多等都是自成体系,全都是数据孤岛。数据孤岛化并不是中国互联网的独有特征,全世界面对一样的问题。

甚至电子杂志也是数据孤岛,电子杂志基本上以一个封闭的(比如和搜索引擎无关)内容包形式存在,用户很难在数字世界中发现其内容,除了一个杂志名。

今天,我们仍在不断地创造着新的数据孤岛,比如新的微信公众账号,它把里面的各种内容源,造成一个一个的数据孤岛。

从技术层面来说,目前大部分软件系统是基于关系数据库理论。由于关系数据库中的数据与表结构、应用程序“关系”密切、紧密耦合,因此,当关系数据库中的数据脱离了原来系统而发送到其它系统之后,也没有相应的耦合“关系”,数据就成了无意义的。另外,很多数据库的表头使用的是代码,除了原本的设计人员外,其他人员看不懂表中内容的实际含义。用一串陌生的代码来表示字段名会导致数据失真。表中的数据的实际含义无人知晓,在大数据平台的建设中,这种问题暴露无遗。

人为因素是让数据孤岛难以打破的更重要的原因。不论是互联网上的数据孤岛,还是软件系统这种形式的数据孤岛,每个孤岛都是该厂家的势力范围,接口开不开取决于跟厂家的协调情况。接口变成了利益的纠葛点,也变成了利益变现点。

人们发明了ETL等技术试图通过数据库打破这些数据孤岛,因为前面提到的关系数据库设计理念的问题,数据库设计者之外的人员既难以了解数据的的结构,也难以知晓数据库中字段的含义,困难重重。

也有公司采用小帮软件机器人的方式,抛开数据库,从界面上采集和写入数据,这种方式的优势是不管是B/S还是C/S架构的系统,确实不需要厂家配合就能把数据采集出来。劣势是,只能获取界面上的数据,也就是业务层面的数据。

以上这些方式,都是治标不治本的方法,在目前没有从根本上解决数据孤岛的办法。要根除数据孤岛的,从技术上来说,可能需要升级设计数据库的理念,让数据在各个系统中都能独立地表达出完整的含义,让接口不再成为系统的桎梏。

随着人类处理数据的能力加强,对于数据的管理能力提升,数据孤岛这个难题,在21世纪将如何破解?我们拭目以待。

原文地址:https://www.cnblogs.com/xiaobang101/p/11881157.html

时间: 2024-11-10 22:28:14

聚焦丨世纪之症 -数据孤岛的相关文章

数据孤岛之下,医疗大数据底层基础该如何建设?

随着医疗卫生信息系统的不断完善和数据的持续积累,健康医疗领域已向"大数据时代"高速迈进.医疗健康大数据具有规模大.增速快,结构多样.潜在应用价值高等特点.面对海量的数据,如何基于创新理念和技术,开启人类应对疾病的新篇章,推动医学科学发展,促进全球健康,已成为国内外共同关注的大课题. "碎片化"的大数据应用底层基础 在可以预见的中近期,医疗大数据发展主要会在三个方向:--推动医疗数据的信息化.进一步推动医疗服务机构信息化建设,为医疗数据的收集提供采集入口.--全面加快

解决“数据孤岛”,对接不同软件系统数据,可以这样玩...

从理论上来说,大数据分析应用,接入不同数据源的数据,搭建大数据模型,对数据进行多角度的深度发掘,可以应用在各行各业.通常,我们提及的大数据,即指数据量巨大,也指数据来源众多.不难理解,数据源是大数据应用的"基础设施",没有数据就不会有大数据,就没有人工智能,也没有机器学习.深度挖掘等,包括数据层面的应用.现今大数据应用分析的真实情况何如?现阶段的实践应用发现,因为不同的数据被存放在不同的软件系统中,数据存在的数据库属于后台,形成一个个数据孤岛,比如淘宝.京东.银行系统.社保系统.各企业

打通数据孤岛,基于MaxCompute实现产销协同的智慧运营

摘要: 每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增长12%. 每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增长12%.随着业务的迅速发展,如何改善内部运营效率.

干货丨一组图详解元数据、主数据与参考数据

[转载] http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm 在数据资产管理领域,有着许多相似的概念和词汇.譬如说“数据管理”和“数据治理”,像孪生兄弟一样让人纠结不已.上周,与一个朋友聊起元数据.主数据和参考数据的关系是什么.这个话题我们足足聊了二十分钟.这三个概念我在一开始做数据管理相关工作的时候也纠结了挺久,于是我根据聊起来的内容稍稍总结了一下,就有了这篇文章,希望能给读者减少些许疑惑. 1.假设场景 我们的假设场景先是这

工信部<<大数据产业发展规划>>

大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17  来源:规划司 数据是国家基础性战略资源,是21世纪的"钻石矿".党中央.国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发<促进大数据发展行动纲要>,全面推进大数据发展,加快建设数据强国."十三五"时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,大数据技

云计算和大数据的方向以及发展前景如何

中国云计算大数据呈现出以下三个方面:1.2010年已经从概念宣传阶段,进入实质发展阶段:2.正处于私有云的研发试验阶段,计划向公有云转变:3.中小企业信息化是公有云发展的核心驱动力.      2009年以来,我国云计算开始进入实质性发展的阶段,各方力量在云计算的发展过程中都起到了推动作用,这些推动者包括以IBM.EMC.Intel等为代表的跨国设备制造商,推销解决方案,拓展和占领市场:上海.北京.天津.无锡.东营等为代表的地方政府建设了一些云计算中心,为拉动投资需求,建立政府公务云及面向中小企

跨界讨论:大数据对人类意味着什么?

大数据.新技术将给人类带来又一次革命——所不同的是,其速度将较前几次更为猛烈和迅速. 日前在此间举行的2014夏季腾讯思享会上,来自科技.经济.社会.历史文化等领域的专家学者们,围绕“大数据”对人类社会的含义各抒已见,也达成上述共识. 问题:新技术会让我们更幸福更安全么? 日光之下并无新事.在弘道书院院长秋风看来,“从根本上说,我们确实处在一个科技革命正在发生的时代,但其实人类的历史其实都是始终围绕着资源的获取.分配,以及再分配展开的.” 的确,在大数据出现之前,伴随着每一次科学的演进和革命,人

WOT干货大放送:大数据架构发展趋势及探索实践分享

WOT大数据处理技术分会场,PingCAP CTO黄东旭.易观智库CTO郭炜.Mob开发者服务平台技术副总监林荣波.宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师,分别针对时下热门的HTAP数据库TiDB.去ETL化的IOTA架构.数据工厂架构.实时敏捷大数据理念实践.基于场景的大数据营销等话题,展开实践分享. 作者:查士加来源:51CTO 2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开.来自全球企业的技术精英汇聚北京,畅谈软件技术

一文详解达观数据知识图谱技术与应用——技术直播回顾

讲师 | 桂洪冠来源 | AI科技大本营在线公开课 本文根据达观数据桂洪冠在"达观杯"文本智能处理挑战赛期间的技术直播分享整理而成,内容略有删减. ▌一.知识图谱的概述 我们先直观的来看一下什么是知识图谱,下面有一张图,从这张图里可以看到,这个图里圆圈是节点,节点之间有一些带箭头的边来连成,这个节点实际上相当于知识图谱里的实体或者概念,边连线表示实体之间的关系. 知识图谱本质上是一种大型的语义网络,它旨在描述客观世界的概念实体事件以及及其之间的关系.以实体概念为节点,以关系为边,提供一