大数据热词科普(五)

在前面的文章中我们给大家讲述了很多有关大数据的热词,我们在这篇文章中给大家介绍结构化数据、半结构化数据、非结构化数据、数据清洗。这些词汇都是和数据分析有关的,下面我们就给大家详细地介绍一下这些词的意思。

首先就是结构化数据,所谓结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如财务系统、医疗HIS数据库、、政府行政审批;其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求等等。由此可见结构化数据是十分常见的。

下面我们就给大家说一说半结构化数据,半结构化数据和普通纯文本相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比。OEM是一种典型的半结构化数据模型。如果我们在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。而这个就是半结构化数据的应用。

接着我们给大家说一下非结构化数据,非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据,比如如数字、符号等信息而且更适合处理非结构化数据,非结构化数据比如全文文本、图象、声音、影视、超媒体等信息。

最后我们给大家说一下数据清洗的内容。数据清洗指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是一个十分重要的内容,因为肮脏数据都会影响数据分析的结果,使得数据分析变得毫无意义。

在这篇文章中我们给大家介绍了很多大数据的词汇,我们给大家介绍的词汇都是和数据分析有所联系的,如果我们在做数据分析以及大数据的话一定不能够忽略这类知识的掌握。

原文地址:https://www.cnblogs.com/CDA-JG/p/10362207.html

时间: 2024-10-11 02:15:10

大数据热词科普(五)的相关文章

大数据热词科普(二)

在上一篇文章中我们给大家介绍了大数据的部分热词科普--人工智能.区块链.图灵测试.在这篇文章中我们给大家介绍一下涉及到大数据的回归分析.贪婪算法.MapReduce.数据挖掘.希望这些知识能够给大家带来帮助. 首先我们说的是回归分析,回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析:按照因变量的多少,可分为简单回归分析和多重回归分析:按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.

大数据热词科普(六)

在前面的文章中我们给大家介绍了不少关于大数据热词的科普知识,从中我们可以发现大数据中的热词之间都是有一些联系的,如果我们学习大数据的话了解这些词汇以后就会不断地激发灵感,下面我们继续给大家介绍一下大数据的热词,希望能够给大家带来帮助. 首先我们给大家介绍的就是随机森林,随机森林经常使用在机器学习中,在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定.随机森林这个术语是1995年由贝尔实验室的所提出的随机决策森林而来的.而随机森林在大数据中的很多方

大数据热词科普(三)

在前面的文章中我们给大家科普了很多大数据的热词内容.当然,和大数据有关的热词有很多,我们在这篇文章中继续给大家讲述一下大数据的热词,希望这篇文章能够给大家带来帮助.好了,现在我们开始进入正题. 首先就是数据可视化,数据可视化,是关于数据视觉表现形式的科学技术研究.其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量.它是一个处于不断演变之中的概念,其边界在不断地扩大.主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形.图像处理.计算

云计算、大数据和人工智能科普

一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算……感觉者之间相辅相成又不可分割.但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下. 今天跟大家讲讲云计算.大数据和人工智能.这三个词现在非常火,并且它们之间好像互相有关系. 一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割. 但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下. 云

大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)

hadoop的核心分为两块,一是分布式存储系统-hdfs,这个我已经在上一章节大致讲了一下,另一个就是hadoop的计算框架-mapreduce. mapreduce其实就是一个移动式的基于key-value形式的分布式计算框架. 其计算分为两个阶段,map阶段和reduce阶段,都是对数据的处理,由于其入门非常简单,但是若想理解其中各个环节及实现细节还是有一定程度的困难,因此我计划在本文中只是挑几个mapreduce的核心来进行分析讲解. 1.MapReduce驱动程序默认值 编写mapred

大数据Java基础第五天作业

第一题:     加载类的时候执行静态代码块,静态代码块的作用为了初始化值. 第二题:     构造代码块先于构造函数的调用,和方法声明的位置无关.顺序是:加载类 => 执行静态代码块      => 实例化类 => 执行构造代码块 => 执行构造函数.     构造代码块的作用也是为了初始化对象属性成员的值. 第三题:     会执行静态代码块,Class.forName("Benz",flase,BenzDemo.class.getClassLoader()

大数据学习之十五——sqoop的安装和使用

1.概念了解 sqoop主要用于hadoop与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MYSQL,Oracle,Postgrep等)中的数据导到hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 2.sqoop的安装 (1)将压缩包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.jar放在Linux的路径下,并修改配置文件/etc/profile export SQOOP_HOME=该压缩包

大数据入门第二十五天——logstash入门

一.概述 1.logstash是什么 根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时 从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库当然是 Elasticsearch.) //属于elasticsearch旗下产品(JRuby开发,开发者曾说如果他知道有scala,就不会用jruby了..) 也就是说,它是flume的“后浪”,它解决了“前浪”flume的数据丢失等问题! 2.基础结构  输入:采集各种来源数据 过滤:实时解析转

牛津博士王宁:大数据和量化金融

牛津博士王宁:大数据和量化金融 本讲座选自2015年8月27日在2015中国国际大数据大会主题论坛五──牛津大学NIE金融大数据实验室.数据科学高级研究员.博士王宁所做的题为<大数据和量化金融,从机器交易.高频交易到大数据交易>的演讲. 王宁:很高兴来到这里,我是第二次参加这种会议了.我这次是以第二个身份来的,就是牛津大学NIE金融大数据实验室,代表实验室过来,今天主要分享一下我们实验室做的关于量化金融的思考跟案例. 首先简单介绍一下我们的大数据NIE实验室,是一个全新的实验室,是2013年1