20世纪的信息化征程,从历史维度来看,也是千年未有之变局。我们有幸目睹并见证了这段峥嵘岁月。也许100年后,人类仍然会感慨20世纪那段开创新历史的“信息革命”。
信息不仅构成了大多数部门的基础,而且它更是变成了可贸易的资源和商品,事实上,没有那个人类经验的方面不受信息的影响。
21世纪,信息技术给人类创造了新的生活方式,但信息化也给人们带来很多困扰。信息技术为我们创造了一个虚拟的世界,虚拟现实能被用来代替物理现实。由于人类记录和处理信息的能力有限,故软件记录信息称为趋势,因为软件应用缺乏整体规划,软件的建造呈现混乱状态,对于数据的应用逐渐进入了深水区,“数据孤岛”的问题逐渐凸显出来。
比如说,各个企业在开展业务过程中,积累了不同维度、不同类型的客户数据。这些数据都是随着企业各自的业务发展自然积累起来的,形式各异,存储在不同的软件系统中,如财务软件、CRM系统、ERP系统等,彼此分割,形成了企业内部的一个个“数据孤岛”。
互联网领域,也同样出现“数据孤岛”的问题。如果想在一篇微信文章中,插入一些外部的链接,是做不到的。这就是微信公众号的封闭性。有了封闭性,数据就会被圈定在产品之中。正是这些封闭的系统,把整个互联网,变成一个个的“数据孤岛”。今天的移动互联网时代,新巨头字节跳动、美团、京东、拼多多等都是自成体系,全都是数据孤岛。数据孤岛化并不是中国互联网的独有特征,全世界面对一样的问题。
甚至电子杂志也是数据孤岛,电子杂志基本上以一个封闭的(比如和搜索引擎无关)内容包形式存在,用户很难在数字世界中发现其内容,除了一个杂志名。
今天,我们仍在不断地创造着新的数据孤岛,比如新的微信公众账号,它把里面的各种内容源,造成一个一个的数据孤岛。
从技术层面来说,目前大部分软件系统是基于关系数据库理论。由于关系数据库中的数据与表结构、应用程序“关系”密切、紧密耦合,因此,当关系数据库中的数据脱离了原来系统而发送到其它系统之后,也没有相应的耦合“关系”,数据就成了无意义的。另外,很多数据库的表头使用的是代码,除了原本的设计人员外,其他人员看不懂表中内容的实际含义。用一串陌生的代码来表示字段名会导致数据失真。表中的数据的实际含义无人知晓,在大数据平台的建设中,这种问题暴露无遗。
人为因素是让数据孤岛难以打破的更重要的原因。不论是互联网上的数据孤岛,还是软件系统这种形式的数据孤岛,每个孤岛都是该厂家的势力范围,接口开不开取决于跟厂家的协调情况。接口变成了利益的纠葛点,也变成了利益变现点。
人们发明了ETL等技术试图通过数据库打破这些数据孤岛,因为前面提到的关系数据库设计理念的问题,数据库设计者之外的人员既难以了解数据的的结构,也难以知晓数据库中字段的含义,困难重重。
也有公司采用小帮软件机器人的方式,抛开数据库,从界面上采集和写入数据,这种方式的优势是不管是B/S还是C/S架构的系统,确实不需要厂家配合就能把数据采集出来。劣势是,只能获取界面上的数据,也就是业务层面的数据。
以上这些方式,都是治标不治本的方法,在目前没有从根本上解决数据孤岛的办法。要根除数据孤岛的,从技术上来说,可能需要升级设计数据库的理念,让数据在各个系统中都能独立地表达出完整的含义,让接口不再成为系统的桎梏。
随着人类处理数据的能力加强,对于数据的管理能力提升,数据孤岛这个难题,在21世纪将如何破解?我们拭目以待。
原文地址:https://www.cnblogs.com/xiaobang101/p/11881157.html