发明专利技术
结构化大数据通信协议
发明人:樊永正
[email protected]
技术领域
结构化大数据通信协议是一种通信协议,也是一种让数据成为合格的结构化大数据的技术。结构化大数据通信协议也类似于ETL,ETL是处理现有的信息系统所产生的数据的问题,而结构化大数据通信协议是在设计信息系统之初就开始预防数据产生问题。ETL是为数据治病,结构化大数据通信协议是预防数据产生疾病。ETL是对现有技术所产生的问题进行小修小补,结构化大数据通信协议提出了新的数据处理方案。结构化大数据通信协议也是一种软件开发模式,利用结构化大数据通信协议所建立的各种信息系统都是大数据信息系统,只要以镜像的方式把各大数据信息系统中的数据上传到大数据中心即可累加成合格的结构化大数据。合格的结构化大数据是不经ETL转换即可高效挖掘的结构化数据。
背景技术
随着大数据时代的到来,人们发现各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难,各行各业已有很多数据,然而数据虽多,却难以高效挖掘。目前是利用关系数据库来解决这些问题,但只能解决局部的问题,不能从根本上解决问题。结构化大数据通信协议就是针对这些问题而创立的。结构化大数据通信协议来源于模仿大脑记忆、联想、思维,始于1982年,那时想让计算机模仿大脑的联想功能。
发明内容
结构化大数据通信协议是通过对数据的优化及软件开发模式的改变而避免信息孤岛问题、互联互通问题、数据共享问题产生,并使数据容易挖掘。结构化大数据通信协议可使数据具有12个技术特性:“唯一性、归属性、可识别性、独立性、完整性、规范性、与系统的耦合性(耦合度为零)、结构统一性、可累加性、可移植性、时间性、真实性”,只有同时满足12个技术特性的数据才是合格的结构化大数据。
发明所要解决的技术问题
发明所要解决的技术问题是大数据4V中“数据类型多(Variety)”问题及“数据速度快(velocity)”问题。所针对的具体的技术问题:各行各业已有很多信息系统,然而信息系统虽多却不能满足大数据时代的需求,信息孤岛严重,难以互联互通,数据共享困难;各行各业已有很多数据,然而数据虽多,却难以高效挖掘。
有益效果
实现互联互通、数据共享容易,查询速度快,数据挖掘容易。
具体实施方式
结构化大数据通信协议的创新表现在如下5个方面:
1、首次提出了结构化大数据的12个技术特性,只有同时满足12个技术特性的数据才能成为合格的结构化大数据。为使数据满足12个技术特性,创立了与12个技术特性相对应的12个数据优化方法。
2、通信的基础是双方必须采用同一个协议。结构化大数据通信协议所提出的“结构化大数据的12个技术特性”就是结构化数据互联互通的“通信协议”。
3、在结构化大数据的每一条数据中都增加了体现“数据的唯一性”和“数据的归属性”的数据项。现有数据库技术由于都是用于处理小数据,都没有考虑这两个数据项的作用,现有的数据中也都没有这两个数据项。这两个数据项是表明一个数据是不是合格的结构化大数据的关键数据项。
4、特别强调数据的标准化、规范化。因为大数据环境中,标准化、规范化的数据能自动模仿大脑的联想功能,从而大幅度提高查询数据的速度和灵活性。关系数据库对数据不加任何限制,完全由数据库的设计人员自己定义;结构化大数据通信协议对数据的限制非常严格,绝对不充许设计人员任意定义数据,所有数据都必须是规范的,这也是让大数据容易挖掘的一项重要措施。
5、利用结构化大数据的12个技术特性为大数据的真实性提供保障。小数据只是在某个单位内部使用,大数据是在很多单位之间使用,因此大数据的真实性、公证性、权威、不可悔改性就显得非常重要。
结构化大数据通信协议在对数据优化时是以“万能数据结构表”(如表一所示)来存贮数据,“万能数据结构表”可以用一张表存贮各种各样的结构化数据。
表一:万能数据结构表存贮数据的例子
ID |
事物代号 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
1099 |
1280 |
数据来源 |
广州第一医院 |
2014.5.3 |
|||
1100 |
1280 |
事物分类 |
病历 |
2014.5.3 |
|||
1101 |
1280 |
事物分类 |
住院病历 |
2014.5.3 |
|||
1102 |
1280 |
事物分类 |
医疗费用 |
2014.5.3 |
|||
1103 |
1280 |
身份证号 |
XXXXXXXXXX |
2014.5.3 |
|||
1104 |
1280 |
住院号 |
XXXXXXXXXX |
2014.5.3 |
|||
1105 |
1280 |
姓名 |
张三 |
2014.5.3 |
|||
1106 |
1280 |
性别 |
男 |
2014.5.3 |
|||
1107 |
1280 |
中药费 |
56 |
元 |
2014.5.3 |
||
1108 |
1280 |
西药费 |
72 |
元 |
2014.5.3 |
||
1109 |
1280 |
其它费用 |
180 |
元 |
2014.5.3 |
说明1:合格的结构化大数据的12个技术特性及12个数据优化方法
合格的结构化大数据具有12个技术特性,或者说只有同时满足12个技术特性的结构化数据才是合格的结构化大数据。结构化大数据通信协议就是使结构化数据满足12个技术特性的方法。为使数据拥有结构化大数据的12个技术特性,结构化大数据通信协议提出了12种相应的数据优化方法。
1、数据的唯一性
数据的唯一性:同一事物的各种数据在生存周期中,在不同的信息系统中,都应该是唯一的、可识别的,不能因时间、空间的变化而变成不可识别的数据。
数据的唯一性所针对的问题:当前的同一事物的各种数据在不同的信息系统中的表达形式各不相同,在大数据挖掘时难以准确地识别。例如,同一商品,在不同的经销商的信息系统中具有不同的编码;同一患者在不同的医院就医时,患者的住院号各不相同,在大数据环境中查患者病史时,会因为与患者相关的数据没有一个统一的标识码而难以查询。
数据优化方法一:让同一事物的所有数据,在不同的时间、空间、环境中,都必须含有一个(或若干个)唯一的、统一的大数据识别码。大数据识别码是数据的身份证、车牌号。大数据识别码与关系数据库中的ID有本质的差异,ID只是在一张表的范围内标识数据,大数据识别码是在大数据的范围内标识数据。
大数据范围:不同的大数据所涉及到的范围不同。在国际贸易中,大数据范围是全球,国家医疗大数据的大数据范围是医疗行业,广州大数据的数据范围是广州市。
大数据识别码可分为两种,一种是某个具体事物的识别码,犹如设备的序列号,但与设备的序列号有本质的差异,设备序列号是企业自己编写的,大数据识别码需要按国际统一的标准来编码;另一种是某类事物的识别码。例如,在了解某种型号的手机在各个经销商的销售情况时,就需要该种型号手机的大数据识别码,因为手机由全世界数十万个经销商销售,手机厂家需要与全世界数十万信息系统互联互通。与人相关的数据全应含有身份证号,以确保在全球范围内,在任何时间段,与某人相关的数据都是唯一的,可识别为同一个人的。大数据会涉及到多个不同的信息系统,而小数据只是在同一个信息系统中生存,因此在大数据环境中,数据的唯一性就非常重要,没有统一的、标准的、规范的识别码会导致数据挖掘非常困难。数据的唯一性是大数据挖掘、分析的基础。大数据识别码必须使可以方便数据分类统计。
2、数据的归属性
数据的归属性:数据不仅要反映事物的各种属性,也要反映出数据是归谁所有(或者说由谁采集、或者说从何而来)。
数据优化方法二:每一个事物的数据中都要含有“数据来源”数据项。“数据来源”是结构化数据具有了“归属性”,一般情况下,可用单位名称来表示“数据来源”。
大数据源于成千上万家单位,若不标明“数据来源”,在大数据挖掘时会引起识别混乱。
3、数据的识别性
数据的识别性:是指让信息系统可识别,让人也可识别。进一步而言,不但要让自己的信息系统识别,也要能让他人的信息系统识别,不但要让自己能识别,也要让他人能识别。
数据的识别性所针对的问题:关系数据库中的数据只有数据库的设计人员自己和自己的信息系统可识别。其它人、其它信息系统只能通过软件对数据库中的数据进行解释、注释、翻译之后才能识别。
数据优化方法三:以适当的冗余使数据可识别,尽量用标准的、规范的自然语言来表达数据,尽量避免用代码来表达数据。在对数据进行优化时的原则是“让相应领域的技术人员能看懂,让别人的信息系统也能识别,而不能只是数据库的设计人员能看懂,也不只是自己的系统能识别。”
在大数据环境中,数据的最重要、最关键的一个特性就是“数据的识别性”。关系数据库的一个策略是:尽量减少数据冗余。关系数据库在降低了数据冗余的同时却增加了识别数据的难度。结构化大数据通信协议的策略与关系数据库正好相反。结构化大数据通信协议的策略:以适当的冗余而使数据具有可识别性,从而使数据可以让他人读懂,也让他人的信息系统能识别。
关系数据库是一种“数据、数据结构、程序、数据库系统四者密不可分的数据库”。因为关系数据库中的数据脱离具体的表结构和程序以后就变成了无意义的数据,关系数据库中的数据只有在特定的表中才具有意义。
“万能数据结构表”是一种“数据与程序无关的数据结构”,或者说是一种“是什么就是什么,与程序无关”。因为“万能数据结构表”中的数据脱离其数据结构后,其数据的真实含义不变。“万能数据结构表”中的数据是用标准的、规范的自然语言而表达的,只要懂自然语言,谁都可以看懂“万能数据结构表”中的数据的真实含义。
从表面上看,关系数据库减少了数据冗余,这是其一大优点。然而,这也是关系数据库的最大缺点之一。关系数据库在减少了数据冗余的同时,也导致了数据失真。数据失真的结果就导致了“信息交换、信息孤岛、数据挖掘难”等等问题。在关系数据库中,只有通过编写大量的程序,才能解决数据失真问题。无数事实表明,关系数据库因数据冗余问题而付出了非常高昂的代价。当“数据与程序密不可分”时,要存贮、读取、查询数据就必须编写大量的程序。当“数据与程序无关时”,只要编写一个通用的程序,其它人借助这个程序就可以非常方便地存贮、读取、查询数据,而不必每开发一个数据库都开发大量的软件。
结构化大数据通信协议的一个原则:基本上不考虑数据冗余问题,以空间换取智能和使用方便,让数据自己说话,而不是让程序替数据说话。而关系数据则是通过应用程序而代替数据说话。用数据代替程序:宁愿增加大量的“冗余”,也要使数据具有独立性、完整性、可识别性。或者说为了使数据具有独立性、完整性、可识别性,不考虑数据冗余问题,无论增加多少冗余都可以。在用关系数据库设计信息系统时,总是用程序来解读数据库中的数据。这种策略所带来的严重恶果就是在处理数据时需要编写大量的程序,不编写程序就无法处理数据。
- 结构化大数据通信协议的策略:不惜一切代价,让数据自己说话,杜绝用程序当翻译!
“让数据自已说话”的目的是:无论把一个数据放到任何地方、任何环境中都能独立地、完整地表达出同样的、完整的含义。在大数据时代,一个数据会出现在不同的信息系统中,因此,必须确保数据在不同的信息系统中、不同的环境中都有相同的含义。结构化大数据通信协议使数据具有“独立性、完整性、识别性、唯一性、归属性”的目的就是让数据自己说话,在大数据环境中,这样可以大幅度地减少编写程序的数量。关系数据库中的数据没有独立性,也没有完整性,关系数据库做不到“让数据自己说话”。关系数据库中的数据需要借助各种“关系”才能表达出完整的含义。结构化大数据通信协议可以让数据自己说话,而关系数据库中的数据需要配备“七大姑八大姨”的“关系”才能准确地表达出相应的含义。
关系数据库的“七大姑八大姨”的“关系”:数据与数据库系统具有密不可分的关系,数据与表结构具有密不可分的关系,数据与应用程序具有密不可分的关系,数据与数据库中的众多表之间具有密不可分的关系。关系数据库中的数据必须依靠关系数据库系统、数据结构、数据类型、应用程序才具有意义。当关系数据库系统中的数据脱离了相应的关系数据库系统、数据结构、数据类型、应用程序之后就变成了无意义的数据。当前的信息系统所存在的“信息孤岛问题、信息交换问题、数据接口问题、互联互通问题、系统的升级换代问题”等等,都是由于关系数据库系统中的数据不能自己说话而造成的。
用关系数据库系统设计电子病历系统时,对“患者基本情况”会采用如下形式:
表二:患者基本情况表(关系数据库中的表)
ID |
HZXM |
GZDW |
ZB |
XB |
ZZ |
NL |
RQ |
HF |
BXRQ |
MZ |
CSZ |
26 |
胡凤 |
橡胶厂 |
工人 |
0 |
蒙古路2号 |
32 |
1991-4-3 |
已 |
1991-4-3 |
汉 |
本人 |
上述形式的数据是小数据时代的经典结构形式。其实“字段名”也是很重要的信息,必须用标准的、规范的自然语言来描述。“患者基本情况”经过结构化大数据通信协议进行优化之后,在“万能数据结构表”中的表达形式:
表三:患者基本情况表(万能数据结构表)
ID |
事物代号 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
100 |
1001 |
数据来源 |
上海市第一医院 |
||||
101 |
1001 |
事物分类 |
病历 |
||||
102 |
1001 |
事物分类 |
住院病历 |
||||
103 |
1001 |
事物分类 |
入院病历 |
||||
104 |
1001 |
事物分类 |
患者基本情况 |
||||
105 |
1001 |
患者编号 |
SH10-199103Z21 |
||||
106 |
1001 |
健康卡号 |
XXXXXXXXXXXX09 |
||||
107 |
1001 |
身份证号 |
XXXXXXXXXXXXXX |
||||
108 |
1001 |
姓名 |
胡风 |
||||
109 |
1001 |
工作单位 |
上海橡胶厂 |
||||
110 |
1001 |
职别 |
工人 |
||||
111 |
1001 |
性别 |
女 |
||||
112 |
1001 |
住址 |
蒙古路20号 |
||||
113 |
1001 |
年龄 |
32 |
||||
114 |
1001 |
入院日期 |
1991-4-30 |
||||
115 |
1001 |
婚否 |
已婚 |
||||
116 |
1001 |
病史采取日期 |
1991-4-30 |
||||
117 |
1001 |
民族 |
汉 |
||||
118 |
1001 |
病情陈述者 |
本人 |
通过上述两张表的对比发现,用“万能数据结构表”所表达的信息是一种完全用自然语言所表达的不失真的信息,这种信息无论放在什么地方其含义都是一样的。
从表面上看用“万能数据结构表”所存贮的信息会多占据一倍左右的存贮空间,但这样存贮数据可以减少很多复杂的数据抽取、转换工作。“万能数据结构表”中的“数据冗余”就是让“数据自己说话”,让数据不依赖数据库系统、不依赖数据结构,不依赖数据类型,不依赖应用程序。结构化大数据通信协议的策略是“以空间换智能及使用方便”。与30年前相比,目前硬盘的存贮容量已提高了10万倍以上,多占据一倍左右的存贮空间的代价很低,可以忽略不计。“让数据自己说话”就是让数据犹如自然语言那样,可以准确、无误地表达应有的含义,不需要注释,也不需要应用程序的解读。
4、数据的独立性
数据的独立性:数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。
针对的问题:关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。关系数据库中的很多表的字段名用的是不规范的字母缩写,在呈现给用户时,需要通过信息系统为表加上表头才能表达出数据的真正含义。
数据优化方法四:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。
5、数据的完整性
数据的完整性:数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。
针对的问题:关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据完整的含义。
数据优化方法五:通过一定的数据冗余而是数据可以自己说话,让“数据不依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义”,如上表三所示的万能数据结构表可实现数据的独立性。
6、数据的规范性
数据的规范性:数据应为标准的、规范的、统一的、无歧义的。
针对的问题:当前的各种信息系统中的数据不规范导致数据挖掘非常困难。
数据优化方法六:应在信息系统设计、数据采集阶段就确保数据是规范的。
数据的规范性需要建立在“国标大数据标准、国家大数据标准、行业大数据标准”的基础之上,而不是建立在某个单位内部的数据标准、规范的基础之上。只有符合“国标大数据标准、国家大数据标准、行业大数据标准”的规范的数据才有资格成为合格的结构化大数据。当前的问题是各家单位的数据规范只是自己制订的,各不相同,没有“国标大数据标准、国家大数据标准、行业大数据标准”,这是阻碍大数据发展的一个大障碍。有了标准、规范,并按标准、规范执行,那么在对大数据进行挖掘时,不再需要ETL。
如何体现结构化大数据的规范性:在设计信息系统时就要考虑数据的规范性,在采集、生成数据时,必须严格按照“国标大数据标准、国家大数据标准、各行各业大数据标准”输入数据、生成数据,只有这样,信息系统所生成的数据才是规范的数据。
各行各业的数据的标准化、规范化是一项工程量巨大的工程。只有做好这项工作,才能确保“结构化大数据的规范性”。数据的标准化是大数据的基础。可以说没有数据的标准化就没有合格的大数据。大数据工程,标准先行。从某一方面而言,由于目前国际上、国内的各行各业都未能做好数据标准化工作,所以目前根本就没有合格的大数据!
“信息系统名、数据库名、表名、字段名、数据库中的数据”都要用标准的、规范的、统一的自然语言,尽量避免使用不规范的代码,这是让数据自然形成“联想关系”的关键,也是实现万能查询的关键。这也是结构化大数据通信协议主张数据规范化的一个非常重要的原因!在大数据环境中,这种“联想关系”可为数据挖掘带来极大的便利,可以大幅度地提高查询数据的速度。
关系数据库理论对数据基本上没有任何限制,全部由设计人员任意定义。这是关系数据库中的数据非常难以挖掘的一个根本原因。结构化大数据通信协议对数据的要求、限制非常严格。严格要求数据必须是标准的、规范的、统一的,必须满足12个技术特性,每一个数据都必须严格符合国际标准、国家标准、行业标准。严禁设计人员任意私自定义数据。数据犹如通用机械地零部件,必须标准化才可以。
大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标准涉及数据的标准、数据结构的标准、业务的标准、业务流程的标准、信息系统标准等。
在大数据时代,一定要在信息系统中采用统一的、标准的、规范的自然言,尽量避免用代码。这是确保数据独立性、数据的完整性和数据的识别性,降低数据与系统的耦合度的必要措施。
7、数据与系统的耦合性
数据与系统的耦合性:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。如果说一个数据不需要任何信息系统的解读,用户就能读懂,那么该数据与信息系统的耦合度为零。
针对的问题:关系数据库中的数据与信息系统的耦合度非常高。关系数据库中的数据与数据库系统、与数据结构、与应用程序是密不可分的,关系数据库中的数据一旦脱离了原信息系统到了大数据环境中之后,就变成了无意义的数据。
数据优化方法七:必须确保每一个数据与信息系统的耦合度为零。以适当的数据冗余而使数据具有独立性、完整性、识别性、规范性、唯一性、归属性,以数据的独立性、数据的完整性、数据的识别性、数据的规范性、数据的唯一性、数据的归属性而确保每一个数据都是与信息系统耦合度为零的数据。
大数据的数据来源于成千上万家单位的系统,因此,大数据中的数据应该是与系统的耦合度为零的数据,否则就需要编写很多的应用程度来解读数据,这会增加处理数据的难度、成本。人们用自然语言所编写的各种文章就是相应专业的人员可直接读懂的,不需要任何的信息系统的解读,因此,这种数据与信息系统的耦合度为零。在大数据中,其数据量数以千亿条计,如果其中的每一个数据都与系统都有一定的耦合度,那么就需要编写海量的程序才能解读大数据。如果说大数据中的每一个数据都是与信息系统的耦合度为零的数据,那么在处理大数据时,就不必再编写任何程序对数据进行解读。
关系数据库的设计者习惯用代码来表示各种数据。例如,有的设计人员用“0”代表女性,用“1”代表男性,而有的设计人员用“W”代表女性,用“M”代表男性。面对成千上万的信息系统所产生的数千亿条以上的数据,这种不标准、不规范的代码就会为大数据挖掘带来巨大灾难。
用关系数据库所建立的信息系统之所以会产生严重的信息孤岛问题,一个重要原因在于关系数据库中的数据是不完整的、不独立的、难以识别的。关系数据库是用各种“关系”来表达各种事物间的关系。关系数据库中的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,正是这种“关系”导致关系数据库必然产生“信息孤岛”。
“万能数据结构表”中的数据与数据库系统、表结构及应用程序无关,可以完全脱离数据库系统、表结构及应用程序而独立地存在。“表一”中的数据是经过结构化大数据通信协议进行优化后的数据,这样的数据即使脱离表结构也能表达出原来的含义。
大数据的原则:尽量避免代码,尽量用标准的自然语言。
判断数据是不是合格的大数据的方法:与信息系统耦合度为零的数据才有资格成为合格的大数据。
推论:由于当前的关系数据库中的数据全部都是与信息系统密切耦合的数据,所以当前的关系数据库中的数据都不是合格的大数据。
8、数据结构的统一性
数据结构的统一性:合格的结构化大数据的数据结构必须是统一的。目前只有“万能数据结构表”可以使数据实现“数据结构的统一性”。
针对的问题:各个关系数据库中的数据的数据结构各不相同。
数据优化方法八:结构化大数据通信协议利用“万能数据结构表”(如下表四所示)来实现数据的“数据结构的统一性”。结构化大数据通信协议不充许设计人员设计任何数据结构,所有结构化数据都必须存贮在一张,或若干张结构完全一样的、标准的、统一的表中。用关系数据库理论做不到数据结构的标准化。
表四:万能数据结构表可实现数据结构的统一性
ID |
事物代号 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
100 |
1001 |
数据来源 |
上海市第一人民医院 |
||||
101 |
1001 |
事物分类 |
病历 |
||||
102 |
1001 |
事物分类 |
住院病历 |
||||
103 |
1001 |
事物分类 |
入院病历 |
||||
104 |
1001 |
事物分类 |
患者基本情况 |
||||
105 |
1001 |
患者编号 |
SH10-19910430Z21 |
||||
106 |
1001 |
健康卡号 |
XXXXXXXXXXXXX09 |
||||
107 |
1001 |
身份证号 |
XXXXXXXXXXXXXXX |
||||
108 |
1001 |
姓名 |
胡风 |
||||
109 |
1001 |
工作单位 |
上海橡胶厂 |
||||
110 |
1001 |
职别 |
工人 |
||||
111 |
1001 |
性别 |
女 |
||||
112 |
1001 |
住址 |
上海市蒙古路20号 |
||||
113 |
1001 |
年龄 |
32 |
||||
114 |
1001 |
入院日期 |
1991/4/30 |
||||
115 |
1001 |
婚否 |
已婚 |
||||
116 |
1001 |
病史采取日期 |
1991-4-30 |
||||
117 |
1001 |
民族 |
汉 |
||||
118 |
1001 |
病情陈述者 |
本人 |
||||
10000 |
52367 |
数据来源 |
广州动物园 |
||||
10001 |
52367 |
事物分类 |
动物管理系统 |
||||
10002 |
52367 |
事物分类 |
企鹅 |
||||
10003 |
52367 |
事物分类 |
帝企鹅 |
||||
10004 |
52367 |
事物分类 |
动物档案 |
||||
10005 |
52367 |
大数据识别码 |
GZQE0003 |
||||
10006 |
52367 |
名字 |
汉武帝 |
||||
10007 |
52367 |
购入日期 |
2013-3-21 |
||||
10008 |
52367 |
身高 |
1.2 |
m |
|||
10009 |
52367 |
体重 |
20 |
kg |
|||
10010 |
52367 |
出生日期 |
2011-4-2 |
||||
10011 |
52367 |
照片 |
JPG |
||||
10012 |
52367 |
笼舍编号 |
098 |
||||
10013 |
52367 |
管理员 |
张三 |
||||
10014 |
52367 |
父 |
GZQE0001 |
||||
10015 |
52367 |
母 |
GZQE0002 |
||||
10016 |
52367 |
性别 |
雄 |
关系数据库的最大问题就是数据结构不标准。关系数据库理论对数据结构没有任何限制,完全由设计人员自由定义数据结构。数据结构标准化是处理大数据的基础,数据结构不标准会导致数据处理非常困难。
9、数据的累加性
数据的累加性:是指“使数据可以(犹如图书那样)不经任何处理即可累加在一起”。
针对的问题:当前的关系数据库系统已产生了很多数据,然而这些数据都不能累加成大数据。
数据优化方法九:数据的累加性可通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时拥有这些属性的数据才具有累加性。
传统的写在纸上的信息具有可累加性,图书馆就是众多图书之和,档案馆就是众多档案之和。数据若具有累加性,那么,广州市政府各部门的数据全部以镜像方式集中存贮到云平台之后就等于建立了广州市大数据,全国97.8万家医疗机构的所有数据全部以镜像的方式上传到国家医疗大数据中心就等于建成了国家医疗大数据。可惜的是,当前的各种信息系统中的数据不具有累加性。
10、数据的移植性
数据的移植性:“无论把数据移植到任何环境中,数据都能保持原有含义不变,能让各种信息系统识别,能让用户识别”,这样的数据才具有移植性。
针对的问题:用关系数据库所建立的信息系统难以互联互通,即一个系统中数据不能移植到另一个系统中。
数据优化方法十:数据的移植性是通过“数据的唯一性、数据的归属性、数据的识别性、数据的独立性、数据的完整性、数据的规范性、数据与系统的耦合性、数据结构的统一性”来实现的,也可以说只有同时具有这些属性的数据才具有移植性。
数据的移植性关系到信息系统的互联互通。具有移植性的数据才能任意地在各个系统之间互联互通。数据的移植性与数据的累加性是一样的,具有移植性的数据也具有累加性,只是数据的移植性是用来体现数据是否可以在各个系统之间互联互通,数据的累加性指的是能否把众多的小数据累加成大数据。
11、数据的时间性
数据的时间性:大数据中的每一个数据都应有相应的时间。
数据优化方法十一:为每一个数据增加时间戳。
12、数据的真实性
数据的真实性:小数据犹如自己记帐而产生的数据,大数据犹如不同单位之间的资金来往而产生的数据,因此大数据的真实性就是非常重要的。
数据优化方法十二:必须把数据防伪、数据防篡改当作重要工作,可通过第三方认证、第三方公证、第三方数据备案的方法使数据的真实性得到保证。