数据分析流程简介

一、背景介绍

数据分析一开始的目的是对行业累计的大量数据进行分析，提取有用的信息，创造更大的价值，而随着电脑的计算能力和数据处理能力的提升，数据分析发展快速成长，现在常常听到的人工智能其实就是数据分析的一种演化与应用。

二、步骤

数据分析步骤可简单分类为下

1、确认目标：首先必须要先确定的是，我们要做什么，比如我们想要知道哪些客户的购买力更强，或是哪个时间点商品的销售量是最好的，或是新推出的商品该如何去定价，数据分析是有目标的，当然也有些时候分析人员意外发现了目标以外的信息，但大部分的时候在商业上的数据分析都是有目的性的。在确认目标的同时需要决定要分析哪些数据，还有就是用那种分析方式、那种算法

2、获取数据：在确立了目标后，就必须要去获取数据，传统的商业数据分析大部分只要从自己公司的数据库调取数据就好，但现在越来越多的数据是需要利用爬虫软件去获取，甚至是要和别人购买，或是做问卷调查，比如我们想要分析新推出的车子在市场的反应好不好，除了调取销售量以外，还需要把客户的问卷调查做统计显示，甚至是到论坛上将所有车友的评价抓取下来，综合起来才可以得到一份全方位的分析报告。

3、数据预处理：一般获取到的数据，即使是自己公司数据库里的数据，也很容易夹杂着脏数据，这些数据会影响到分析结果，或是让代码无法顺利跑完，所以得到数据后必须先将数据处理，处理数据的方式很多，针对不同种类的数据、不同用途的数据，清理的方式不一样。例如我是要训练文件分类器的，我要先将文章里面常见的字和罕见的字去除掉，或是要分析地方人均拥有车辆的数目，要把过大的数和非整数的数目清除，才不会影响到分析结果

4、测试算法：数据分析的算法很多，有一句话是这样说的“没有最好的算法，只有最适合的算法”，每种分析方式都有他的优缺点，而且是随时在变化的，也许当下这个算法是最好的，但可能过一阵子就会发现有比他更好的算法出现，像是是人工智能的发展，其实就是一种算法的发展，有些算法可能在人脸识别他的准确率不够高，但是用他来分析销售量的变化是非常准的。

5、调整参数：一个合适的算法，还需要有良好的参数，调整参数需要有大量的数据提供，这些数据在机器学习里面称为“训练材料”，决定一个人工智能够不够聪明，分析结果够不够准确，往往就是这个参数，不同的算法有不同的调整方式，这个过程称为“优化”，优化的方式也有很多，这边不一一细说，只举个简单的例子，今天我们要从办公室到家里，有很多种的交通方式，假如直接打车回家可能是最快的，但也是最贵的，假如走路回家是最省钱的，但是最慢，所以在不花太多钱，速度又不慢的情况就会选择走路+打车+地铁的组合，这种过程就是优化的一种，透过不同的组合，计算出成本，找出成本最低的，就是常见的优化方式

这边要提的一点是，机器学习有一种说法叫“过度学习（overfitting）”，就是训练完的参数在训练材料里跑出的结果100分，结果在正式使用的时候发现准确率不高，这是因为参数过度的去迎合训练材料，所以通常会将训练材料拆分成两个部分，一个用来优化参数，一个用来校验，这种方法叫交叉训练

原文地址：https://www.cnblogs.com/yenpaul/p/9969699.html

时间： 2024-11-08 20:42:03

数据分析流程简介

数据分析流程简介的相关文章

qt-qml移动开发之在ios上开发和部署app流程简介

【转】Spark架构与作业执行流程简介

Android多媒体-底层流程简介

离线数据分析流程及推荐系统架构图

gitlab工作流程简介

Storm启动流程简介

Android 启动流程简介

离线数据分析流程介绍

CentOS开机启动流程简介