CDA数据分析【第二章:数据收集与导入】

一.概述

  数据是对我们所研究现象的属性和特征的具体描述,在分析数据前必须要做的工作就是收集数据。按照存储形式可以将数据划分为结构化数据、非结构化数据和半结构化数据。

  1.结构化数据

    能够用数据或统一的格式加以表示,简单来说就是数据库。

  2.非结构化数据

    无法用数据或统一的结构加以表示,如视频、音频、图片、文档等形式。

  3.半结构化数据

    包括邮件、HTML、报表、资源库等。

二.SQL语言和MySQL

  数据库,顾名思义,是存放数据的仓库。严格地讲,数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。概况地讲,数据库数据具有永久存储、有组织和可共享三个基本特点。

  1.SQL语言

    SQL【Structured Query Language】,即结构化查询语言,是关系型数据库的标准语言。SQL是在1974年由Boyce和Chamberlin提出的,并在IBM公司研制的数据库管理系统原型System R上实现。于1987年定为国际标准。SQL集数据查询【Data Query】、数据操纵【Data Manipulation】DML、数据定义【Data Definition】DDL和数据控制【Data Control】DCL功能于一身,语言风格统一,可以独立完成数据库生命周期中的全部活动。

未完待续。。。

原文地址:https://www.cnblogs.com/yszd/p/11618238.html

时间: 2024-10-31 00:16:36

CDA数据分析【第二章:数据收集与导入】的相关文章

第二章 数据,变量和计算

头文件 #include <>或#include "" <> 强制类型转换 double a=1.6; cout<<static_cast<int>(a)<<endl; 输出为1 注意旧的强制类型转换为int(a),这比新的更容易出错,得不到想要的结果,所以推荐static_cast<转换成的类型>() 自动判断数据类型 auto n=16; 自动判断n的类型为int const auto e=1.1; 自动判断静

第二章 数据是用二进制表示的

看完第二章后,我知道了计算机是以二进制来存储数据的(其实标题已经告诉我们了).以至于计算机为什么用二进制来表示的,是因为计算机内部是由集成电路这种电子部件构成的,它们的所有引脚的每个引脚只有两种状态,就是0V和5V, 二进制数是只有0和1,它们之间的特性很相似. 还有字节(Byte)与位(bit)两者的关系,字节是计算机处理信息的基本单位,而位是最小单位(1字节=8位).还有就是用二进制数表示的数值,计算机不会区分它是数值.文字还是图片等,而是根据编写的各位对计算机发出的指示来进行信息的处理的.

Python 数据分析—第九章 数据聚合与分组运算

打算从后往前来做笔记 第九章 数据聚合与分组运算 分组 #生成数据,五行四列 df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':np.random.randn(5), 'data2':np.random.randn(5)}) df #可以按照key1分组计算data1的平均值 df.loc[:,'data1'].groupby(df.loc[:,'key

【知识强化】第二章 数据的表示和运算 2.2 定点数的表示与运算

我们进入第二章的学习,就是定点数的表示和运算. 那关于定点数呢我们分为两块内容,一块呢就是定点数的表示也就是我们这一节的内容,一块呢就是定点数的运算.这两块内容呢都非常的难,也都非常的重点.希望大家呢引起重视. 原文地址:https://www.cnblogs.com/ZHONGZHENHUA/p/11370240.html

高性能javascript(第二章 数据访问)

1.数据存储位置关系到访问速度.在 JavaScript 中有四种基本的数据访问位置: 直接量: 变量: 数组: 对象: 2.多数情况下,对一个直接量和一个局部变量数据访问的性能差异是微不足道的. 3.作用域和标示符解析: 每一个 JavaScript 函数都被表示为对象.进一步说,它是一个函数实例.函数对象正如其他对象那样, 拥有你可以编程访问的属性,和一系列不能被程序访问,仅供 JavaScript 引擎使用的内部属性. 其中一个内部属性是[[Scope]],由ECMA-262 标准第三版定

KnockoutJS 3.X API 第二章 数据监控(1)视图模型与监控

数据监控 KO的三个内置核心功能: 监控(Observable)和依赖性跟踪(dependency tracking) 声明绑定(Declarative bindings) 模板(Templating) 在这个页面上,您将了解三种核心功能的第一种.但在此之前,让我们来看看MVVM模式的概念和视图模型的概念. MVVM模式和视图模型 模型-视图-视图模型(MVVM)是用于构建用户界面的设计模式.它描述了如何将复杂的UI分割成三个部分: 模型:应用程序所存储的数据.这个数据代表了你的业务领域对象和操

《数据挖掘:R语言实战》第二章 数据概览

2.1 n*m数据集 在n*m表格形式的数据集中,n代表数据的行,即观测点的数量:m代表列,即变量的数量:n*m为数据的维度. 一般来说,当拿到一份数据时,最先做的往往就是查看数据集的观测样本数.变量数,以及这些变量的实际含义,以此对数据集的庞大程度和各变量的相对重要性做到心中有数.这对选取何种数据挖掘算法,以及在这之前应该抽取多少及哪些变量及样本纳入建模都有重要的先导作用. 2.2 数据的分类 2.2.1 一般的数据分类 定量数据:连续型数据和离散型数据 定性数据:定类数据.定序数据.定距数据

第二章 数据的存储与检索(2)

重点: 知道何时读完文件:feof() 函数 每次读取一行数据:fgets() .fgetss() .fgetcsv() 函数 读取整个文件:readfile() .fpassthru() .file() 函数 读取一个字符:fgetc() 函数 读取任意长度:fread() 函数 查看文件是否存在:file_exists() 函数 确定文件大小:filesize() 函数 删除一个文件:unlink() 函数 在文件中定位:rewind() .fseek() .ftell() 函数 文件锁定:

第二章 数据的存储与检索(1)2.1—2.4节

学习重点: 保存数据以便后期使用 打开文件 创建并写入文件 关闭文件 读文件 给文件加锁 删除文件 其他有用的文件操作函数 数据库管理系统 存储和检索Bob的订单: html文件:文件名(orderform.html) <html> <head> <title>Bob's Auto Parts</title> </head> <body> <h1>Bob's Auto Parts</h1> <h2>