版权说明:内容来自互联网及书籍
一、数据采集方法
1.数据来源
一手数据:数据的直接来源。
二手数据:数据的间接来源。内部来源:比如财务报表,包括会计计算,成本资料等。外部来源:比如各类统计年鉴等,调查机构发布的数据等。
2. 抽样方法
1. 分类
按照样本抽取方式不同分为:有放回抽样,无放回抽样
2.非概率抽样
3. 概率抽样方法分类
概率抽样主要分为
简单随机抽样, 系统抽样, 分类抽样,
整群抽样, 多阶段抽样... 现实生活中绝大多数 抽样调查都采用概率抽样方法来抽取样本。
4.简单随机抽样的样本量
二、市场调研
市场调研:对营销决策相关的数据进行计划、收集和分析,并把分析结果向管理者沟通的过程。
1. 市场调研的过程
1. 不同的营销调研目标(识别问题、需要什么信息)
2. 生成调研设计(描述性研究、还是因果性研究)
3. 选择调研方法(调查法、实验法、观察法)
4. 选择抽样方法
5. 收集数据
6. 分析数据
7. 撰写并提交报告
8. 跟踪
2. 调查问卷
1.问卷分类
(1)结构型问卷:封闭式问卷、开放式问卷、半封闭式问卷
(2)非结构型问卷: 事先不准备表格、提问方式和标准化的备选答案,只是按照调查放向和询问内容,和被调查者自由交谈的问卷。
2. 封闭式和开放式问卷
3. 问卷设计原则
目的性原则
顺序性原则
简明性原则
匹配性原则
可接受原则
4. 问题的类型
5. 问卷编码
各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,我们详细举例介绍如下:
1 单选题:答案只能有一个选项
例一 当前贵组织机构是否设有面向组织的职业生涯规划系统?
A有 B 正在开创 C没有 D曾经有过但已中断
编码:只定义一个变量,Value值1、2、3、4分别代表A、B、C、D 四个选项。
录入:录入选项对应值,如选C则录入3
2 多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。
(1)方法一(二分法):
例二 贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示考虑在内。
A月薪员工 B日薪员工 C钟点工
编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1” 选。
录入:被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。
(2)方法二:
例三你认为开展保持党员先进性教育活动的最重要的目标是那三项:
1( ) 2 ( ) 3( )
A、提高党员素质
A、提高党员素质 B、加强基层组织 C、坚持发扬民主
D、激发创业热情 E、服务人民群众 F、促进各项工作
D、激发创业热情 E、服务人民群众 F、促进各项工作
编码:定义三个变量分别代表题目中的1、2、3三个括号,三个变量Value值均同样的以对应的选项定义,即:“1” A,“2” B,“3” C,“4” D,“5” E,“6” F
录入:录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。
[注:能用方法二编码的多选题也能用方法编码,但是项数不定的多选只能用二分法,即方法一是多选题一般处理方法。]
3 排序题: 对选项重要性进行排序
例四 您购买商品时在 ①品牌 ②流行 ③质量 ④实用 ⑤价格 中对它们的关注程度先后顺序是(请填代号重新排列)
第一位 第二位 第三位 第四位
第一位 第二位 第三位 第四位 第五位
编码:定义五个变量,分别可以代表第一位 第五位,每个变量的Value都做如下定义:“1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格
录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。
4 选择排序题:
例五 把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项,并按重要性从高到低排序”,选项不变。
编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1” 未选,“2” 排第一,“3” 排第二,“4” 排第三。
录入:以变量的Value值录入。比如三个括号里分别选的是 ECF,则该题的6个变量的值应该分别录入:1(代表A选项未选)、1、 3(代表C选项排在第二)、1、2、4。
[注:该方法是对多选题和排序题的方法结合的一种方法,对一般排序题(例四)也同样适用,只是两者用的分析方法不同(例四用频数分析、例五用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。]
5 开放性数值题和量表题:这类题目要求被调查者自己填入数值,或者打分
例六 你的年龄(实岁):______
编码:一个变量,不定义Value值
录入:即录入被调查者实际填入的数值。
6开放性文字题:
如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。
三、数据预处理方法
1. 数据预处理的基本步骤
(1)数据清洗 —— 去噪声和无关数据
(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式
(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
2. 数据清洗
(1)处理缺失值
(2)平滑噪声值
BIN方法(分箱):通过考察邻近值,来光滑有序数据的值
聚类方法
(3)识别和处理异常值
异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值
识别方法:
处理方法:盖帽法
(4)解决不一致问题
3. 数据集成
(1)、实体识别问题
数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。
自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这涉及实体识别问题。例如,数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢 ?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如,pay_type的数据编码在一个数据库中可以是“H”和“S”,而在另一个数据库中是1和2)。因此,这一步也与前面介绍的数据清理有关。
在集成期间,当一个数据库的属性和另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如,在一个系统中,discount可以用于订单,而在另外一个系统中,它被用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。
(2)、冗余和相关分析
冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果能由另一个或另一组属性”导出”,则这个属性可能是冗余的。属性或维命名的不一致可能导致结果数据集中的冗余。
有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用x^2(卡方)检测。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),他们都评估一个属性的值如何随另一个变化。
(3)、元组重复
除了检测属性间的冗余外,还应当在元组级检测重复。去规范表是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据库的某些地方,但未更新所有的。
4. 数据变换
(1)数据的泛化和聚集
(2)数据标准化:最大最小规范 z-score规范 小数定标
min-max标准化(Min-max normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
z-score 标准化(zero-mean normalization)
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
5. 数据消减
(1)维数消减:主成分分析,变量聚类分析
(2)离散化(连续)
(3)分类重组(离散)