[转]概念:结构化数据、半结构化数据、非结构数据

原:http://blog.csdn.net/liangyihuai/article/details/54864952

结构化数据、半结构化数据和非结构化数据

结构化数据

结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

id      name    age     gender
1       lyh     12      male
2       liangyh 13      female
3       liang   18      male

所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?)。

半结构化数据

半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。

半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有

<person>
    <name>A</name>
    <age>13</age>
    <gender>female</gender>
</person>

第二个可能为:

<person>
    <name>B</name>
    <gender>male</gender>
</person>

从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,<person>标签是树的根节点,<name><gender>标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

非结构化数据

顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

时间: 2024-10-13 19:59:16

[转]概念:结构化数据、半结构化数据、非结构数据的相关文章

结构化、半结构化、非结构化数据

结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析 结构化数据.非结构化数据以及半结构化数据对比 类别 结构化数据 半结构化数据 非结构化数据 数据特征 数据结构字段含义确定,清晰 具有一定结构,但语义不够确定:自描述,数据结构和内容混杂在一起 杂乱无章的数据,很难按照一个概念去进行抽取,无规律性 典型例子 数据库中的表结构 邮件.HTML.报表.资源库 视频.音频.图片.图像.文档.文本等 数据模型 二维表 树.图 无 存储方案 高速存储应用需求.数据备份需求.数据共享需求

结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis.mangodb).RDBMS关系数据库(oracle,mysql等),另一些其他的数据库如hbase,在这些数据库中.又会出现结构化数据.非结构化数据.半结构化数据,以下列出各种数据类型: 结构化数据: 可以用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示. 半结构化数据: 所谓半结构化数据.就是介于全然结构化数据(如关系型

[转]结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型: 结构化数据: 能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示.   半结构化数据: 所谓半结构化数据,就是介于完全结构化数据(如

结构化,半结构化,非结构化数据总结

前言: Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能.在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别. 1.结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 所以,结构化的数

构化数据、半结构化数据和非结构化数据

结 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 1 2 3 4 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助.但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?). 半结构化数据 半结构化

结构化数据、非结构化数据、半结构化数据

结构化数据 特点:高度组织和格式化:可以用二维表结构来逻辑表达和实现的数据 存储形式:关系型数据库 非结构化数据 特点:数据结构不规则或不完整.数据模型不固定 存储形式:非关系型数据库 绝大部分数据是非结构化的 半结构化数据 非关系模型的.有基本固定结构模式的数据,例如日志文件.XML文档.JSON文档.Email等 如日志文件.XML文档.JSON文档.Email等 <person> <name>A</name> <age>13</age> &

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

大数据理论体系总结--数据仓库管理与全链路数据体系

前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家.那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术.大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来: 早在多年以前在Hadoop.Spark.Storm.Kafka等系列分布式计算与存储.消息中间件还没有成熟的时候,

结构化数据(structured),半结构化数据(semi-structured),非结构化数据(unstructured)

概念 结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据. 半结构化数据:介于完全结构化数据(如关系型数据库.面向对象数据库中的数据)和完全无结构的数据(如声音.图像文件等)之间的数据,HTML文档就属于半结构化数据.它一般是自描述的,数据的结构和内容混在一起,没有明显的区分. 非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 数据模型 结构化数据:二维表(关系