结构化,半结构化,非结构化数据总结

前言:

  • Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别。

    1.结构化数据

  • 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:
    id      name    age     gender
    1       lyh     12      male
    2       liangyh 13      female
    3       liang   18      male
  • 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?)。

    2.半结构化数据

  • 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。
    常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有
    <person>
    <name>A</name>
    <age>13</age>
    <gender>female</gender>
    </person>

    第二个可能为:

    <person>
    <name>B</name>
    <gender>male</gender>
    </person>
  • 从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,<person>标签是树的根节点,<name>和<gender>标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

    3.非结构化数据

  • 顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

参考:https://blog.csdn.net/liangyihuai/article/details/54864952

原文地址:http://blog.51cto.com/10814168/2123154

时间: 2024-08-10 23:16:33

结构化,半结构化,非结构化数据总结的相关文章

非结构化数据

rlist扩展包 设计目标:更方便地在R中操作list对象 特性: 提供一系列高阶函数,可以方便地对list对象中的元素进行映射(mapping).筛选(filtering).分组(grouping).排序(sorting).合并(joining).更新(updating).搜索(searching)以及其他常用操作. 对管道操作(pipeline)友好,方便非结构化数据处理的流程化. 整合多种非结构化数据源的读写方法,方便接入数据源和输出数据. 合理利用R的元编程特性,简化使用. 基于表达式的

结构化数据(structured),半结构化数据(semi-structured),非结构化数据(unstructured)

概念 结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据. 半结构化数据:介于完全结构化数据(如关系型数据库.面向对象数据库中的数据)和完全无结构的数据(如声音.图像文件等)之间的数据,HTML文档就属于半结构化数据.它一般是自描述的,数据的结构和内容混在一起,没有明显的区分. 非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 数据模型 结构化数据:二维表(关系

结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis.mangodb).RDBMS关系数据库(oracle,mysql等),另一些其他的数据库如hbase,在这些数据库中.又会出现结构化数据.非结构化数据.半结构化数据,以下列出各种数据类型: 结构化数据: 可以用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示. 半结构化数据: 所谓半结构化数据.就是介于全然结构化数据(如关系型

[转]结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型: 结构化数据: 能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示.   半结构化数据: 所谓半结构化数据,就是介于完全结构化数据(如

结构化、半结构化、非结构化数据

结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析 结构化数据.非结构化数据以及半结构化数据对比 类别 结构化数据 半结构化数据 非结构化数据 数据特征 数据结构字段含义确定,清晰 具有一定结构,但语义不够确定:自描述,数据结构和内容混杂在一起 杂乱无章的数据,很难按照一个概念去进行抽取,无规律性 典型例子 数据库中的表结构 邮件.HTML.报表.资源库 视频.音频.图片.图像.文档.文本等 数据模型 二维表 树.图 无 存储方案 高速存储应用需求.数据备份需求.数据共享需求

构化数据、半结构化数据和非结构化数据

结 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 1 2 3 4 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助.但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?). 半结构化数据 半结构化

结构化数据、非结构化数据、半结构化数据

结构化数据 特点:高度组织和格式化:可以用二维表结构来逻辑表达和实现的数据 存储形式:关系型数据库 非结构化数据 特点:数据结构不规则或不完整.数据模型不固定 存储形式:非关系型数据库 绝大部分数据是非结构化的 半结构化数据 非关系模型的.有基本固定结构模式的数据,例如日志文件.XML文档.JSON文档.Email等 如日志文件.XML文档.JSON文档.Email等 <person> <name>A</name> <age>13</age> &

2015第27周一非结构化数据

非结构化数据包括以下几个类型: 文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译.当然,流数据中有一些字段需要更加高级的分析和发掘功能. 交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中.人们表达对人.产品的看法和观点,并以文本字段的方式存储.为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术.你需要将文本数据以实体集合的形式展现,并结合其中的关系属性. 图像:图像识别算法已经逐渐成为了主流.此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加

hbase非结构化数据库与结构化数据库比较

目的:了解hbase与支持海量数据查询的特性以及实现方式 传统关系型数据库特点及局限 传统数据库事务性特别强,要求数据完整性及安全性,造成系统可用性以及伸缩性大打折扣.对于高并发的访问量,数据库性能不是很好,类似于互联网这样的访问量容易造成宕机. hbase hbase是基于列存储的数据库与传统的基于行存储的关系型数据库相比,可扩展性好.Hbase是一个面向列存储的分布式存储系统,它的优点在于可以实现高性能的并发读写操作,同时Hbase还会对数据进行透明的切分,这样就使得存储本身具有了水平伸缩性