数据分析流程简介

一、背景介绍

数据分析一开始的目的是对行业累计的大量数据进行分析,提取有用的信息,创造更大的价值,而随着电脑的计算能力和数据处理能力的提升,数据分析发展快速成长,现在常常听到的人工智能其实就是数据分析的一种演化与应用。

二、步骤

数据分析步骤可简单分类为下

1、确认目标:首先必须要先确定的是,我们要做什么,比如我们想要知道哪些客户的购买力更强,或是哪个时间点商品的销售量是最好的,或是新推出的商品该如何去定价,数据分析是有目标的,当然也有些时候分析人员意外发现了目标以外的信息,但大部分的时候在商业上的数据分析都是有目的性的。在确认目标的同时需要决定要分析哪些数据,还有就是用那种分析方式、那种算法

2、获取数据:在确立了目标后,就必须要去获取数据,传统的商业数据分析大部分只要从自己公司的数据库调取数据就好,但现在越来越多的数据是需要利用爬虫软件去获取,甚至是要和别人购买,或是做问卷调查,比如我们想要分析新推出的车子在市场的反应好不好,除了调取销售量以外,还需要把客户的问卷调查做统计显示,甚至是到论坛上将所有车友的评价抓取下来,综合起来才可以得到一份全方位的分析报告。

3、数据预处理:一般获取到的数据,即使是自己公司数据库里的数据,也很容易夹杂着脏数据,这些数据会影响到分析结果,或是让代码无法顺利跑完,所以得到数据后必须先将数据处理,处理数据的方式很多,针对不同种类的数据、不同用途的数据,清理的方式不一样。例如我是要训练文件分类器的,我要先将文章里面常见的字和罕见的字去除掉,或是要分析地方人均拥有车辆的数目,要把过大的数和非整数的数目清除,才不会影响到分析结果

4、测试算法:数据分析的算法很多,有一句话是这样说的“没有最好的算法,只有最适合的算法”,每种分析方式都有他的优缺点,而且是随时在变化的,也许当下这个算法是最好的,但可能过一阵子就会发现有比他更好的算法出现,像是是人工智能的发展,其实就是一种算法的发展,有些算法可能在人脸识别他的准确率不够高,但是用他来分析销售量的变化是非常准的。

5、调整参数:一个合适的算法,还需要有良好的参数,调整参数需要有大量的数据提供,这些数据在机器学习里面称为“训练材料”,决定一个人工智能够不够聪明,分析结果够不够准确,往往就是这个参数,不同的算法有不同的调整方式,这个过程称为“优化”,优化的方式也有很多,这边不一一细说,只举个简单的例子,今天我们要从办公室到家里,有很多种的交通方式,假如直接打车回家可能是最快的,但也是最贵的,假如走路回家是最省钱的,但是最慢,所以在不花太多钱,速度又不慢的情况就会选择走路+打车+地铁的组合,这种过程就是优化的一种,透过不同的组合,计算出成本,找出成本最低的,就是常见的优化方式

这边要提的一点是,机器学习有一种说法叫“过度学习(overfitting)”,就是训练完的参数在训练材料里跑出的结果100分,结果在正式使用的时候发现准确率不高,这是因为参数过度的去迎合训练材料,所以通常会将训练材料拆分成两个部分,一个用来优化参数,一个用来校验,这种方法叫交叉训练

原文地址:https://www.cnblogs.com/yenpaul/p/9969699.html

时间: 2024-11-08 20:42:03

数据分析流程简介的相关文章

qt-qml移动开发之在ios上开发和部署app流程简介

qt5.3已经全面支持移动开发,除了mac,windows,linux,还支持ios,android,wp,meego等移动平台,本教程是作者根据自己的经验,从头讲怎么样在ios上发布自己的app,由于目前国内相关文章还比较少,可能文章里有所疏漏,或者并非最优方法. 软件准备:qt5.3 , xcode 5.1.1 编译环境: Mac os Qt5.3下载地址http://qt-project.org选择对应的Mac ox版本,支持iOS和android的版本,安装过程省略 Xcode在app

【转】Spark架构与作业执行流程简介

原文链接 http://www.cnblogs.com/shenh062326/p/3658543.html Spark架构与作业执行流程简介 Local模式 运行Spark最简单的方法是通过Local模式(即伪分布式模式). 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local 基于standalone的Spark架构与作业执行流程 Standalone模式下,集群启动时包括Master与Worker,其中Master负

Android多媒体-底层流程简介

先上图,根据图做一个简单介绍 我们讲一下MediaPlayer 应用层的播放器首先调用framework层的MediaPlayer的类,接着FrameWork层会继续调用Native层的MediaPlayer类,然后通过Binder调用MediaPlayerService,MediaPlayerService调用OpenVC库解码成原始的视频流和音频流,视频流通过UI一帧一帧的显示出来,MediaPlayerService将解码后的音频流交给AudioTrack,接着交给AudioFlinger

离线数据分析流程及推荐系统架构图

1.离线数据分析流程 一个应用广泛的数据分析系统:"web日志数据挖掘" 1.1 需求分析 1.1.1 案例名称 "网站或APP点击流日志数据挖掘系统". 1.1.2 案例需求描述 "Web点击流日志"包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率.访客的来源信息,访客的终端信息等. 1.1.3 数据来源 本案例的数据主要由用户的点击行为记录 获取方式:在页面预埋一段js程序

gitlab工作流程简介

gitlab工作流程简介 新建项目流程 创建/导入项目 可以选择导入github.bitbucket项目,也可以新建空白项目,还可以从SVN导入项目 建议选择private等级 初始化项目 1.本地克隆项目 2.增加develop本地分支 3.推送develop分支至服务器 4.在gitlab中保护develop分支 5.邀请其他开发人员加入,角色Developer 开发流程 fork项目,fork后会生成一个和原项目一样的新项目 克隆至本地仓库并添加上游分支(仓库-项目设置-远程仓库) git

Storm启动流程简介

storm启动流程          storm是一个流行的开源的,分布式实时处理框架,关于storm的基本介绍可以参加这篇官方文档.大致的拓扑结构如图所示:        其中Nimbus是一个后台管理进程,运行在master node上.Supervisor也是后台进程,运行在work node上.依据上图,Nimbus和Supervisor不直接通信,通过zookeeper进行通信.在Master Node上,可以通过storm nimbus命令来启动nimbus进程,同时通过storm

Android 启动流程简介

Android 启动流程: 1. linux OS Bootloader -> Linux kernel 2. Android/Init Runtime Init Process -> Services -> Zygote/VM -> System Server 3. Framework HomeScreen Server Manager -> Home Luncher 如下图: Android 启动流程: 1. 系统引导 Bootloader 1). 源码 bootable

离线数据分析流程介绍

3. 离线数据分析流程介绍 注:本环节主要感受数据分析系统的宏观概念及处理流程,初步理解hadoop等框架在其中的应用环节,不用过于关注代码细节   一个应用广泛的数据分析系统:"web日志数据挖掘"   3.1 需求分析 3.1.1 案例名称 "网站或APP点击流日志数据挖掘系统". 3.1.2 案例需求描述 "Web点击流日志"包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化

CentOS开机启动流程简介

我们都知道按下电脑电源键后,屏幕上会一闪而过很多信息,然后显示登录界面,然后输入用户名,密码就可以畅享网络世界了.那么这中间到底发生了什么呢,今天就让我们来简单探讨一下CentOS的简易版开机启动流程吧. 第一阶段:通电自检过程 我们都知道电脑所有数据指令都是在内存上才能被cpu处理的吧,我们还知道内存在断电后其上面的所有数据都会丢失吧,那么开机的时候内存应该是没有东西的吧,那上面都不能干了,更别说启动一个操作系统了,其实啊,我们内存并不只是我们常见的那个内存卡,很多硬件都会映射一段内存到cpu