Python数据挖掘——数据挖掘概况

数据挖掘概况

　什么是数据挖掘？

　数据挖掘（Data mining，简称DM），是指从大量数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。

　数据挖掘是一门交叉学科，覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销和其他学科等知识。

　数据挖掘与数据分析的区别：

项目	数据分析	数据挖掘
定义	根据分析目的，用适当的方法即工具，对收集的数据进行处理与分析，提取有价值的信息，发挥数据的作用	从大量数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。
作用	现状分析、原因分析、预测分析	解决四类问题：分类、据类、关联、预测
方法	对比分析、分组分析、交叉分析、回归分析等	决策树、神经网络、关联规则、据类分析等
结果	指标统计量结果，如综合/平均值等	输出模型或规则

　　模型：定量模型：数学公式（Y=a*X) ；定性模型：规则（年龄>30岁 and 收入> 1万元）

　　算法：实现数据挖掘技术、模型的具体步骤与方法。（最小二乘法、K均值法等）

　　数据挖掘常见问题：用户流失预测（分类）、促销活动响应（分类）、目标市场细分（聚类）、交叉销售提升（关联）、未来显示预测（预测）

　　分类问题：属于有监督学习，使用已知目标分类的历史样本来训练，需要对未知分类的样本预测所属的分类。

　　常见的分类算法：决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等。

　　聚类问题：属于无监督学习，根据物以类聚的思想将目标按一定规则进行分类。

　　常见的据类算法：划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。

　　关联问题：属于无监督学习，基于数据的项之间的关联，确定关联程度，识别有可能发生或频繁发生的模式（购物篮分析）。

　　常见的关联算法：Aprior算法、Carma算法、序列算法。

　　预测问题：属于有监督学习，需要已知目标值的历史样本作为训练模型，对位置的样本预测其目标值。（未来气温、GDP增长）

　　常见的预测算法：简单线性回归分析、多重线性回归分析、时间序列分析等。

　　数据挖掘流程

　　CRISP-DM数据挖掘方法论：商业理解—数据理解—数据准备—模型构建—模型评估—模型部署

　　商业理解：确定商业目标、确定挖掘目标、指定项目方案

　　数据理解：数据收集（数据需求/数据的重要程度/数据的提取情况）、数据描述（数据描述报告——了解数据均值/最大最小值/中值等）、数据探索（数据探索分析报告——绘制散点图/直方图，进行指标相关性分析等）、质量描述（对数据质量进行描述——摸清数据来源/真实性/是否满足建模需求）

　　数据准备：数据导入、抽取、清洗、合并、变量计算

　　模型构建：准备训练集和验证集、选择使用建模技术、建立模型、模型对比

　　模型评估：技术层面（设计对照组进行比较；评估指标：命中率、覆盖率、提升度等）；业务经验

　　模型部署：营销过程跟踪记录、观察模型衰退变化、引入新的特征优化模型、模型写成程序固化到平台。

原文地址：https://www.cnblogs.com/rix-yb/p/9623441.html

时间： 2024-10-09 01:45:26

Python数据挖掘——数据挖掘概况的相关文章

利用 Python 练习数据挖掘

覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具. 第一节介绍数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式.它使用广泛,并且是众多应用的技术基础. 本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具.近些年来,Python在开发以数据为中心的应用中被用的越来越多.感谢大型科学计算社区的支持以及大大丰富的数据分析函数库.尤其是,我们可以看到如何: ? 导入和可视化数据 ? 数据分类 ? 使用回归分析和相关测量法发现数据之间的关系 ? 数据降维

转-利用 Python 练习数据挖掘

英文出处:Giuseppe Vettigli.欢迎加入翻译组. 覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具. 第一节介绍数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式.它使用广泛,并且是众多应用的技术基础. 本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具.近些年来,Python在开发以数据为中心的应用中被用的越来越多.感谢大型科学计算社区的支持以及大大丰富的数据分析函数库.尤其是,我们可以看到如何: • 导入和可视化数据 • 数据分

一小时了解数据挖掘⑤数据挖掘步骤＆常用的聚类、决策树和CRISP-DM概念

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例一小时了解数据挖掘②:分类算法的应用和成熟案例解析一小时了解数据挖掘③:详解大数据挖掘の分类技术一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘.本文主要讲解数据挖掘的基本规范流程.CRISP-DM和SEMMA是两种常用的数据挖掘流程. 数据

python&数据分析&数据挖掘--参考资料推荐书籍

1.要用python做数据分析,先得对python语言熟悉,推荐一本入门书 :笨方法学python (learn python the hard way),这本书用非常有趣的讲述方式介绍了python的基本语法,非常适合非计算机专业作为入门书来看. 2.用python做数据分析的话,推荐用 anaconda,地址https://www.anaconda.com/download/ ,可以根据需要选择版本 3.后面需要添加各种包的时候,在开始-所有程序,打开Anaconda prompt,输入

python大数据挖掘和分析的套路

数据分析流程一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目.按照这个流程,每个部分需要掌握的细分知识点如下: 数据获取:公开数据.Python爬虫外部数据的获取方式主要有以下两种. 第一种是获取外部的公开数据集,一些科研机构.企业.政府会开放一些数据,你需要到特定的网站去下载这些数据.这些数据集通常比较完善.质量相对较高. 另一种获取外部数据的方式就是爬虫. 比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市

python大数据挖掘系列之淘宝商城数据预处理实战

数据清洗: 所谓的数据清洗,就是把一些异常的.缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响.拿到数据后,我们进行数据清洗分为两方面: 缺失值发现:可以查找异常值发现:画图分析缺失值:在下载数据.搜集数据的时候刚好就缺失.可以通过查找的方法去发现. 异常值:不一定就是异常,可能就是客观存在,但是这个值对于总的数据来说是一个就比较特殊点.可以通过画散点图发现. 这两方面的处理方法如下: 缺失值处理

深入浅出谈数据挖掘——数据挖掘主要解决的四类问题

商务智能产品数据挖掘主要侧重解决四类问题:分类.聚类.关联.预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计.交叉报表.假设检验等.数据挖掘非常清晰的界定了它所能解决的几类问题.这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程.下面让我们来看看它所解决的四类问题是如何界定的: 1.分类问题分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A.B.C三类)而不是一个具体的数值(如55.65.75

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）

原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多

【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工