聚焦丨世纪之症 -数据孤岛

20世纪的信息化征程，从历史维度来看，也是千年未有之变局。我们有幸目睹并见证了这段峥嵘岁月。也许100年后，人类仍然会感慨20世纪那段开创新历史的“信息革命”。

信息不仅构成了大多数部门的基础，而且它更是变成了可贸易的资源和商品，事实上，没有那个人类经验的方面不受信息的影响。

21世纪，信息技术给人类创造了新的生活方式，但信息化也给人们带来很多困扰。信息技术为我们创造了一个虚拟的世界，虚拟现实能被用来代替物理现实。由于人类记录和处理信息的能力有限，故软件记录信息称为趋势，因为软件应用缺乏整体规划，软件的建造呈现混乱状态，对于数据的应用逐渐进入了深水区，“数据孤岛”的问题逐渐凸显出来。

比如说，各个企业在开展业务过程中，积累了不同维度、不同类型的客户数据。这些数据都是随着企业各自的业务发展自然积累起来的，形式各异，存储在不同的软件系统中，如财务软件、CRM系统、ERP系统等，彼此分割，形成了企业内部的一个个“数据孤岛”。

互联网领域，也同样出现“数据孤岛”的问题。如果想在一篇微信文章中，插入一些外部的链接，是做不到的。这就是微信公众号的封闭性。有了封闭性，数据就会被圈定在产品之中。正是这些封闭的系统，把整个互联网，变成一个个的“数据孤岛”。今天的移动互联网时代，新巨头字节跳动、美团、京东、拼多多等都是自成体系，全都是数据孤岛。数据孤岛化并不是中国互联网的独有特征，全世界面对一样的问题。

甚至电子杂志也是数据孤岛，电子杂志基本上以一个封闭的（比如和搜索引擎无关）内容包形式存在，用户很难在数字世界中发现其内容，除了一个杂志名。

今天，我们仍在不断地创造着新的数据孤岛，比如新的微信公众账号，它把里面的各种内容源，造成一个一个的数据孤岛。

从技术层面来说，目前大部分软件系统是基于关系数据库理论。由于关系数据库中的数据与表结构、应用程序“关系”密切、紧密耦合，因此，当关系数据库中的数据脱离了原来系统而发送到其它系统之后，也没有相应的耦合“关系”，数据就成了无意义的。另外，很多数据库的表头使用的是代码，除了原本的设计人员外，其他人员看不懂表中内容的实际含义。用一串陌生的代码来表示字段名会导致数据失真。表中的数据的实际含义无人知晓，在大数据平台的建设中，这种问题暴露无遗。

人为因素是让数据孤岛难以打破的更重要的原因。不论是互联网上的数据孤岛，还是软件系统这种形式的数据孤岛，每个孤岛都是该厂家的势力范围，接口开不开取决于跟厂家的协调情况。接口变成了利益的纠葛点，也变成了利益变现点。

人们发明了ETL等技术试图通过数据库打破这些数据孤岛，因为前面提到的关系数据库设计理念的问题，数据库设计者之外的人员既难以了解数据的的结构，也难以知晓数据库中字段的含义，困难重重。

也有公司采用小帮软件机器人的方式，抛开数据库，从界面上采集和写入数据，这种方式的优势是不管是B/S还是C/S架构的系统，确实不需要厂家配合就能把数据采集出来。劣势是，只能获取界面上的数据，也就是业务层面的数据。

以上这些方式，都是治标不治本的方法，在目前没有从根本上解决数据孤岛的办法。要根除数据孤岛的，从技术上来说，可能需要升级设计数据库的理念，让数据在各个系统中都能独立地表达出完整的含义，让接口不再成为系统的桎梏。

随着人类处理数据的能力加强，对于数据的管理能力提升，数据孤岛这个难题，在21世纪将如何破解？我们拭目以待。

原文地址：https://www.cnblogs.com/xiaobang101/p/11881157.html

时间： 2024-11-10 22:28:14

聚焦丨世纪之症 -数据孤岛

聚焦丨世纪之症 -数据孤岛的相关文章

数据孤岛之下，医疗大数据底层基础该如何建设？

解决“数据孤岛”，对接不同软件系统数据，可以这样玩...

打通数据孤岛，基于MaxCompute实现产销协同的智慧运营

干货丨一组图详解元数据、主数据与参考数据

工信部<<大数据产业发展规划>>

云计算和大数据的方向以及发展前景如何

跨界讨论：大数据对人类意味着什么？

WOT干货大放送：大数据架构发展趋势及探索实践分享

一文详解达观数据知识图谱技术与应用——技术直播回顾