数据采集及预处理

版权说明：内容来自互联网及书籍

一、数据采集方法

1.数据来源

一手数据：数据的直接来源。

二手数据：数据的间接来源。内部来源：比如财务报表，包括会计计算，成本资料等。外部来源：比如各类统计年鉴等，调查机构发布的数据等。

2. 抽样方法

1. 分类

按照样本抽取方式不同分为：有放回抽样，无放回抽样

2.非概率抽样

3. 概率抽样方法分类

概率抽样主要分为
简单随机抽样，系统抽样，分类抽样，
整群抽样，多阶段抽样... 现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。

4.简单随机抽样的样本量

二、市场调研

市场调研：对营销决策相关的数据进行计划、收集和分析，并把分析结果向管理者沟通的过程。

1. 市场调研的过程

1. 不同的营销调研目标（识别问题、需要什么信息）

2. 生成调研设计（描述性研究、还是因果性研究）

3. 选择调研方法（调查法、实验法、观察法）

4. 选择抽样方法

5. 收集数据

6. 分析数据

7. 撰写并提交报告

8. 跟踪

2. 调查问卷

1.问卷分类

（1）结构型问卷：封闭式问卷、开放式问卷、半封闭式问卷

（2）非结构型问卷：事先不准备表格、提问方式和标准化的备选答案，只是按照调查放向和询问内容，和被调查者自由交谈的问卷。

2. 封闭式和开放式问卷

3. 问卷设计原则

目的性原则

顺序性原则

简明性原则

匹配性原则

可接受原则

4. 问题的类型

5. 问卷编码

各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型，他们的变量的定义和处理的方法各有不同，我们详细举例介绍如下：

1 单选题：答案只能有一个选项

　例一当前贵组织机构是否设有面向组织的职业生涯规划系统？

　　A有 B 正在开创 C没有 D曾经有过但已中断

编码：只定义一个变量，Value值1、2、3、4分别代表A、B、C、D 四个选项。

录入：录入选项对应值，如选C则录入3

2 多选题：答案可以有多个选项，其中又有项数不定多选和项数定多选。

（1）方法一（二分法）：

　例二贵处的职业生涯规划系统工作涵盖哪些组群？画钩时请把所有提示考虑在内。

　　A月薪员工 B日薪员工 C钟点工

编码：把每一个相应选项定义为一个变量，每一个变量Value值均如下定义：“0” 未选，“1” 选。

录入：被调查者选了的选项录入1、没选录入0，如选择被调查者选AC，则三个变量分别录入为1、0、1。

　（2）方法二：

　例三你认为开展保持党员先进性教育活动的最重要的目标是那三项：

　　1（） 2 （） 3（）

　　A、提高党员素质

　　A、提高党员素质 B、加强基层组织 C、坚持发扬民主

　　D、激发创业热情 E、服务人民群众 F、促进各项工作

编码：定义三个变量分别代表题目中的1、2、3三个括号，三个变量Value值均同样的以对应的选项定义，即：“1” A，“2” B，“3” C，“4” D，“5” E，“6” F

录入：录入的数值1、2、3、4、5、6分别代表选项ABCDEF，相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF，则在三个变量下分别录入1、3、6。

［注：能用方法二编码的多选题也能用方法编码，但是项数不定的多选只能用二分法，即方法一是多选题一般处理方法。］

3 排序题：对选项重要性进行排序

　　例四您购买商品时在 ①品牌 ②流行 ③质量 ④实用 ⑤价格中对它们的关注程度先后顺序是（请填代号重新排列）

　　第一位第二位第三位第四位

　　第一位第二位第三位第四位第五位

编码：定义五个变量，分别可以代表第一位第五位，每个变量的Value都做如下定义：“1” 品牌，“2” 流行，“3” 质量，“4” 实用，“5” 价格

录入：录入的数字1、2、3、4、5分别代表五个选项，如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。

4 选择排序题：

　　例五把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项，并按重要性从高到低排序”，选项不变。

编码：以ABCDEF6个选项分别对应定义6个变量，每个变量的Value都做同样的如下定义：“1” 未选，“2” 排第一，“3” 排第二，“4” 排第三。

录入：以变量的Value值录入。比如三个括号里分别选的是 ECF，则该题的6个变量的值应该分别录入：1（代表A选项未选）、1、 3（代表C选项排在第二）、1、2、4。

［注：该方法是对多选题和排序题的方法结合的一种方法，对一般排序题（例四）也同样适用，只是两者用的分析方法不同（例四用频数分析、例五用描述分析），输出结果从不同的侧面反映问题的重要性（前一种方法从位次从变量的频数看排序，后一种方法从变量出发看排序）。］

5 开放性数值题和量表题：这类题目要求被调查者自己填入数值，或者打分

例六你的年龄（实岁）：______

编码：一个变量，不定义Value值

录入：即录入被调查者实际填入的数值。

6开放性文字题：

　　如果可能的话可以按照含义相似的答案进行编码，转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的，应对这类问题直接做定性分析。

三、数据预处理方法

1. 数据预处理的基本步骤

（1）数据清洗 —— 去噪声和无关数据

（2）数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

（3）数据变换 —— 把原始数据转换成为适合数据挖掘的形式

（4）数据规约 —— 主要方法包括：数据立方体聚集，维度归约，数据压缩，数值归约，离散化和概念分层等。

2. 数据清洗

(1)处理缺失值

（2）平滑噪声值

BIN方法（分箱）：通过考察邻近值，来光滑有序数据的值

聚类方法

（3）识别和处理异常值

异常值outlier：指样本中的个别值，其数值明显偏离它（或他们）所属样本的其余观测值,也称异常数据，离群值

识别方法：

处理方法：盖帽法

（4）解决不一致问题

3. 数据集成

（1）、实体识别问题

数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并，存放那个在一个一致的数据存储中，如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

自数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”？这涉及实体识别问题。例如，数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢？每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围，以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如，pay_type的数据编码在一个数据库中可以是“H”和“S”，而在另一个数据库中是1和2)。因此，这一步也与前面介绍的数据清理有关。

在集成期间，当一个数据库的属性和另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如，在一个系统中，discount可以用于订单，而在另外一个系统中，它被用于订单内的商品。如果在集成之前未发现，则目标系统中的商品可能被不正确地打折。

（2）、冗余和相关分析

冗余是数据集成的另一个重要问题。一个属性(例如，年收入)如果能由另一个或另一组属性”导出”，则这个属性可能是冗余的。属性或维命名的不一致可能导致结果数据集中的冗余。

有些冗余可以被相关分析检测到。给定两个属性，这种分析可以根据可用的数据，度量一个属性能在多大程度上蕴涵另一个。对于标称数据，我们使用x^2（卡方）检测。对于数值属性，我们使用相关系数(correlation coefficient)和协方差(covariance)，他们都评估一个属性的值如何随另一个变化。

（3）、元组重复

除了检测属性间的冗余外，还应当在元组级检测重复。去规范表是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间，由于不正确的数据输入，或者由于更新了数据库的某些地方，但未更新所有的。

4. 数据变换

（1）数据的泛化和聚集

（2）数据标准化：最大最小规范 z-score规范小数定标

min-max标准化(Min-max normalization)

　　也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

z-score 标准化(zero-mean normalization)

　　也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

5. 数据消减

（1）维数消减：主成分分析，变量聚类分析

（2）离散化（连续）

（3）分类重组（离散）

时间： 2024-11-07 15:04:09