数据采集及预处理

版权说明:内容来自互联网及书籍

一、数据采集方法

1.数据来源

一手数据:数据的直接来源。

二手数据:数据的间接来源。内部来源:比如财务报表,包括会计计算,成本资料等。外部来源:比如各类统计年鉴等,调查机构发布的数据等。

2. 抽样方法

1. 分类

按照样本抽取方式不同分为:有放回抽样,无放回抽样

2.非概率抽样

3. 概率抽样方法分类

概率抽样主要分为
简单随机抽样, 系统抽样, 分类抽样,
整群抽样, 多阶段抽样... 现实生活中绝大多数 抽样调查都采用概率抽样方法来抽取样本。

4.简单随机抽样的样本量

二、市场调研

市场调研:对营销决策相关的数据进行计划、收集和分析,并把分析结果向管理者沟通的过程。

1. 市场调研的过程

1. 不同的营销调研目标(识别问题、需要什么信息)

2. 生成调研设计(描述性研究、还是因果性研究)

3. 选择调研方法(调查法、实验法、观察法)

4. 选择抽样方法

5. 收集数据

6. 分析数据

7. 撰写并提交报告

8. 跟踪

2. 调查问卷

1.问卷分类

(1)结构型问卷:封闭式问卷、开放式问卷、半封闭式问卷

(2)非结构型问卷: 事先不准备表格、提问方式和标准化的备选答案,只是按照调查放向和询问内容,和被调查者自由交谈的问卷。

2. 封闭式和开放式问卷

3. 问卷设计原则

目的性原则

顺序性原则

简明性原则

匹配性原则

可接受原则

4. 问题的类型

5. 问卷编码

各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,我们详细举例介绍如下:

1 单选题:答案只能有一个选项

 例一 当前贵组织机构是否设有面向组织的职业生涯规划系统?

  A有   B 正在开创   C没有   D曾经有过但已中断

编码:只定义一个变量,Value值1、2、3、4分别代表A、B、C、D 四个选项。

录入:录入选项对应值,如选C则录入3

2 多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。

(1)方法一(二分法)

 例二 贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示考虑在内。

  A月薪员工       B日薪员工     C钟点工

编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1” 选。

录入:被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。

 (2)方法二:

 例三你认为开展保持党员先进性教育活动的最重要的目标是那三项:

  1(   )   2 ( )   3(   )

  A、提高党员素质

  A、提高党员素质   B、加强基层组织 C、坚持发扬民主

  D、激发创业热情 E、服务人民群众   F、促进各项工作

  D、激发创业热情 E、服务人民群众   F、促进各项工作

编码:定义三个变量分别代表题目中的1、2、3三个括号,三个变量Value值均同样的以对应的选项定义,即:“1” A,“2” B,“3” C,“4” D,“5” E,“6” F

录入:录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。

[注:能用方法二编码的多选题也能用方法编码,但是项数不定的多选只能用二分法,即方法一是多选题一般处理方法。]

3 排序题: 对选项重要性进行排序

  例四 您购买商品时在   ①品牌 ②流行 ③质量 ④实用 ⑤价格   中对它们的关注程度先后顺序是(请填代号重新排列)

  第一位    第二位    第三位    第四位

  第一位    第二位    第三位    第四位    第五位

编码:定义五个变量,分别可以代表第一位 第五位,每个变量的Value都做如下定义:“1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格

录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。

4 选择排序题:

  例五 把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项,并按重要性从高到低排序”,选项不变。

编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1” 未选,“2” 排第一,“3” 排第二,“4” 排第三。

录入:以变量的Value值录入。比如三个括号里分别选的是    ECF,则该题的6个变量的值应该分别录入:1(代表A选项未选)、1、 3(代表C选项排在第二)、1、2、4。

[注:该方法是对多选题和排序题的方法结合的一种方法,对一般排序题(例四)也同样适用,只是两者用的分析方法不同(例四用频数分析、例五用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。]

5 开放性数值题和量表题:这类题目要求被调查者自己填入数值,或者打分

例六 你的年龄(实岁):______

编码:一个变量,不定义Value值

录入:即录入被调查者实际填入的数值。

6开放性文字题:

  如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。

三、数据预处理方法

1. 数据预处理的基本步骤

(1)数据清洗 —— 去噪声和无关数据

(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中

(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。

2. 数据清洗

(1)处理缺失值

(2)平滑噪声值

BIN方法(分箱):通过考察邻近值,来光滑有序数据的值

聚类方法

(3)识别和处理异常值

异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值

识别方法:

处理方法:盖帽法

(4)解决不一致问题

3. 数据集成

(1)、实体识别问题

数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这涉及实体识别问题。例如,数据分析者或者计算机如何才能确定一个数据库的customer_id与另一个数据库中的cust_number指的是相同的属性呢 ?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值得空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用于变换数据(例如,pay_type的数据编码在一个数据库中可以是“H”和“S”,而在另一个数据库中是1和2)。因此,这一步也与前面介绍的数据清理有关。

在集成期间,当一个数据库的属性和另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数和参考约束与目标系统中的匹配。例如,在一个系统中,discount可以用于订单,而在另外一个系统中,它被用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。

(2)、冗余和相关分析

冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果能由另一个或另一组属性”导出”,则这个属性可能是冗余的。属性或维命名的不一致可能导致结果数据集中的冗余。

有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用x^2(卡方)检测。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),他们都评估一个属性的值如何随另一个变化。

(3)、元组重复

除了检测属性间的冗余外,还应当在元组级检测重复。去规范表是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据库的某些地方,但未更新所有的。

4. 数据变换

(1)数据的泛化和聚集

(2)数据标准化:最大最小规范  z-score规范 小数定标

min-max标准化(Min-max normalization)

  也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

z-score 标准化(zero-mean normalization)

  也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

5. 数据消减

(1)维数消减:主成分分析,变量聚类分析

(2)离散化(连续)

(3)分类重组(离散)

时间: 2024-08-25 12:57:00

数据采集及预处理的相关文章

经验1

纯属转载,有参考价值,更要共勉! 知乎原文 题主似乎没有明确自己是博士生,以下假设为博士生. 1.首先,请以一个局外人的理智角度,对你的导师进行如下分类: ① 圈内大牛,高水平论文很多,目前自己仍在亲力亲为参与科研工作,请转2 ② 简历里面有一些高水平论文,但是似乎并不能算是大牛,请转3 ③ 其他情况,请转4 2.这一种情况是比较理想的,个人认为你的关于论文的疑惑,其实可以尽量多和你的导师交流.不说科研这么大的话题,单单就写论文来说,其实有很多的技巧和潜规则,与其自己去试错,不如从导师那里多取取

大数据发展历程

一:大数据概念 大数据是由数量巨大.结构复杂.类型众多的数据结构的数据集合,在合理时间内,通过对该该数据集合的管理.处理.并整理成为能帮助政府机构和企业进行管理.决策的讯息. 二:大数据特点 大数据通常具有以下几种特点: 1.大量:即数据体量庞大,包括采集.存储和计算的量都非常大. 2.高速:要求处理速度快,从各类型的数据中快速获得高价值的信息 3.多样:数据种类繁多 4.价值:价值密度低,由于数据产生量巨大且速度非常快,必然形成各种有效数据和无效数据错杂的状态,因此数据价值的密度低. 5.在线

TensorFlow与主流深度学习框架对比

引言:AlphaGo在2017年年初化身Master,在弈城和野狐等平台上横扫中日韩围棋高手,取得60连胜,未尝败绩.AlphaGo背后神秘的推动力就是TensorFlow--Google于2015年11月开源的机器学习及深度学习框架. TensorFlow在2015年年底一出现就受到了极大的关注,在一个月内获得了GitHub上超过一万颗星的关注,目前在所有的机器学习.深度学习项目中排名第一,甚至在所有的Python项目中也排名第一.本文将带我们简单了解下TensorFlow,并与其他主流深度学

推荐系统(2)

用户画像就是根据用户的特征对用户的数学建模,可以用许多标签来表示,标签就是特征空间的维度 一.用户画像的作用 1.用户精细化运营 2.商户精细化运营支持 3.个性化 4.大数据报告 5.趋势预测 二.用户画像处理流程 1.明确问题和了解数据 *需求和数据的匹配 *明确需求 分类.聚类.推荐和其他 *数据的规模和重要特征的覆盖度 . 2.数据预处理 *数据集成.数据冗余.数值冲突 *数据采样 *数据清洗.缺失值处理与噪声数据 3.特征工程的含义 数据和特征决定了机器学习的上限,模型和算法只是逼近这

第四届CCF大数据学术会议征文通知

第四届CCF大数据学术会议征文通知 2016年10月,兰州 近几年,大数据是各界高度关注积极布局的热点方向.2015年8月,国务院发表<促进大数据发展行动纲要>,正式将大数据提升为国家战略,旨在全面推进我国大数据的发展和应用,加快建设数据强国.现如今大数据不但已成为全球IT行业最强劲的发展动力,而且正在引起各行各业的业务变革与产业升级.因此,为了探讨大数据相关领域所面临的挑战,共享各类创新思想,反映中国大数据技术的最新研究进展,交流大数据的应用现状和研发经验,继2013-2015成功召开了三届

一个机器学习博士生的忠告[转]

纯属转载,有参考价值,更要共勉!  知乎原文 题主似乎没有明确自己是博士生,以下假设为博士生. 1.首先,请以一个局外人的理智角度,对你的导师进行如下分类:  ① 圈内大牛,高水平论文很多,目前自己仍在亲力亲为参与科研工作,请转2  ② 简历里面有一些高水平论文,但是似乎并不能算是大牛,请转3  ③ 其他情况,请转4 2.这一种情况是比较理想的,个人认为你的关于论文的疑惑,其实可以尽量多和你的导师交流.不说科研这么大的话题,单单就写论文来说,其实有很多的技巧和潜规则,与其自己去试错,不如从导师那

车牌识别LPR(八)-- 字符识别

?第八篇:字符识别 车牌定位.车牌倾斜校正.车牌字符分割都是为车牌字符识别做的前提工作,这些前提工作直接关系到车牌识别系统的性能.车牌字符识别是车牌识别系统的核心部分,车牌字符识别的准确率是衡量车牌识别系统的一个很重要的指标. 一般字符识别的方法就是采用模式识别方法,简单的来说模式识别就是先通过提取输入模板的特征,然后通过模板的特征对样本进行分类,从而识别出样本.模式识别主要包括:数据采集.预处理.特征提取.特征匹配,其结构框架如图: 字符识别是模式识别的一个重要应用,首先提取待识别字符的特征:

net 爬虫 天猫 京东 虚拟电商 虚拟充值 游戏交易 c# 多线程 HTTP协议 抓包

工作职责 1,负责虚拟电商平台(天猫店.京东店.拍拍便民.招行银行.民生银行等)对接工作,实现数据采集及预处理. 任职要求1,熟悉 ASP.NET MVC.Web API.jQuery.Newtonsoft.Json.DES2,熟悉 SQL Server.SQLite.Dapper.NET3,熟悉 WinForm.DevExpress.NPOI4,熟悉 C#.Thread.Task.Log4Net.Regex.HtmlAgilityPack5,熟悉 Fiddler.IE开发人员工具.BlueSt

数据分析系统DIY3/3:本地64位WIN7+matlab 2012b访问VMware CentOS7+MariaDB

数据分析系统DIY中要完成的三个任务. 一.用VMware装64位CentOS,数据库服务端用CentOS自带的就好. 二.数据采集与预处理用Dev-C++编程解决. 三.用本地Win7 64上的MATLAB R2012b连接数据库进行挖掘分析. 本文是完成第三个任务的过程. 1.首先下载jar格式的mariadb数据库jdbc驱动包,下载地址 2.将下载好的驱动程序拷到"matlab安装目录\java\jar" 3.编辑"matlab安装目录\toolbox\local\c