结构化、半结构化、非结构化数据

结构化数据、非结构化数据以及半结构化数据是对存储形式的一种数据类型分析

结构化数据、非结构化数据以及半结构化数据对比
类别 结构化数据 半结构化数据 非结构化数据
数据特征 数据结构字段含义确定,清晰 具有一定结构,但语义不够确定;自描述,数据结构和内容混杂在一起 杂乱无章的数据,很难按照一个概念去进行抽取,无规律性
典型例子 数据库中的表结构 邮件、HTML、报表、资源库 视频、音频、图片、图像、文档、文本等
数据模型 二维表 树、图
存储方案 高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求 数据存储、数据备份、数据共享以及数据归档等基本存储需求 数据存储、数据备份以及数据共享

参考:http://wenku.baidu.com/link?url=KuvgoBPGRQrhfw0e-8EA999ldIGgCiL_MYyKb4KxeXYmqd_ADB8pkIkkQ2qiuqk0TMJzgR2xe4962irKAEWvVDxQkSta1TXS_xCDLgIx42O

http://zhidao.baidu.com/link?url=q3qq6xrAam6FLDXIRZxoN5ZOyXz6O-VKpzqs9VkphzagN00bFwjjYKmnPsN6QQ6bre3ABHSklEVhgJJo9sydWK

http://blog.sina.com.cn/s/blog_49c1385f01014bf6.html

时间: 2024-10-13 13:36:45

结构化、半结构化、非结构化数据的相关文章

非结构化数据

rlist扩展包 设计目标:更方便地在R中操作list对象 特性: 提供一系列高阶函数,可以方便地对list对象中的元素进行映射(mapping).筛选(filtering).分组(grouping).排序(sorting).合并(joining).更新(updating).搜索(searching)以及其他常用操作. 对管道操作(pipeline)友好,方便非结构化数据处理的流程化. 整合多种非结构化数据源的读写方法,方便接入数据源和输出数据. 合理利用R的元编程特性,简化使用. 基于表达式的

结构化数据(structured),半结构化数据(semi-structured),非结构化数据(unstructured)

概念 结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据. 半结构化数据:介于完全结构化数据(如关系型数据库.面向对象数据库中的数据)和完全无结构的数据(如声音.图像文件等)之间的数据,HTML文档就属于半结构化数据.它一般是自描述的,数据的结构和内容混在一起,没有明显的区分. 非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 数据模型 结构化数据:二维表(关系

结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis.mangodb).RDBMS关系数据库(oracle,mysql等),另一些其他的数据库如hbase,在这些数据库中.又会出现结构化数据.非结构化数据.半结构化数据,以下列出各种数据类型: 结构化数据: 可以用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示. 半结构化数据: 所谓半结构化数据.就是介于全然结构化数据(如关系型

[转]结构化、半结构化和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型: 结构化数据: 能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号.传统的关系数据模型.行数据,存储于数据库,可用二维表结构表示.   半结构化数据: 所谓半结构化数据,就是介于完全结构化数据(如

结构化,半结构化,非结构化数据总结

前言: Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能.在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别. 1.结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 所以,结构化的数

构化数据、半结构化数据和非结构化数据

结 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 1 2 3 4 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助.但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?). 半结构化数据 半结构化

结构化数据、非结构化数据、半结构化数据

结构化数据 特点:高度组织和格式化:可以用二维表结构来逻辑表达和实现的数据 存储形式:关系型数据库 非结构化数据 特点:数据结构不规则或不完整.数据模型不固定 存储形式:非关系型数据库 绝大部分数据是非结构化的 半结构化数据 非关系模型的.有基本固定结构模式的数据,例如日志文件.XML文档.JSON文档.Email等 如日志文件.XML文档.JSON文档.Email等 <person> <name>A</name> <age>13</age> &

2015第27周一非结构化数据

非结构化数据包括以下几个类型: 文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译.当然,流数据中有一些字段需要更加高级的分析和发掘功能. 交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中.人们表达对人.产品的看法和观点,并以文本字段的方式存储.为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术.你需要将文本数据以实体集合的形式展现,并结合其中的关系属性. 图像:图像识别算法已经逐渐成为了主流.此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加

hbase非结构化数据库与结构化数据库比较

目的:了解hbase与支持海量数据查询的特性以及实现方式 传统关系型数据库特点及局限 传统数据库事务性特别强,要求数据完整性及安全性,造成系统可用性以及伸缩性大打折扣.对于高并发的访问量,数据库性能不是很好,类似于互联网这样的访问量容易造成宕机. hbase hbase是基于列存储的数据库与传统的基于行存储的关系型数据库相比,可扩展性好.Hbase是一个面向列存储的分布式存储系统,它的优点在于可以实现高性能的并发读写操作,同时Hbase还会对数据进行透明的切分,这样就使得存储本身具有了水平伸缩性