数据挖掘方法论及实施步骤

1、业界数据挖掘方法论

2、在工作中,我们进行数据挖掘实施指导方法:

应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化

步骤一:业务理解

常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。

过程:业务调研->问题定位->制定目标->业务分析

步骤二:指标设计

基于对业务问题的梳理分析,找到合适的分析方法或者方法论指导模型指标设计,确保指标体系化、全面性。

常见的一些分析方法

步骤三:数据提取

数据提取确保建模数据的完整性、可用性和完整性。

数据提取: 提取建模所需数据

数据清洗:  缺失数据处理  极值数据处理  错误数据处理  冗余数据处理

数据审核:  数据统计错误审核  数据源错误审核  数据统计口径审核

数据集成:  数据挖掘宽表构建

步骤四:数据探索

数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。

步骤五:算法选择
     根据建模场景进行算法选择:如:描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法。

步骤六:模型评估

步骤七:模型发布

聚焦业务问题提供端到端的专题解决方案;提高数据挖掘应用的效果和价值;是一套端到端、完整的数据挖掘专题解决方案、而非单纯的数据挖掘结果

步骤八:模型优化

模型初期: 模型初步构建进行模型验证

模型上升期: 根据模型验证和业务情况进行模型优化

模型成熟期: 模型准确率达到相应精度、稳定成熟引领业务发展

模型衰退期: 伴随业务的发展模型不再适用新的的业务环境,逐步停下脚步。

时间: 2024-08-05 08:25:33

数据挖掘方法论及实施步骤的相关文章

华为数据挖掘方法论及案例介绍

数据挖掘是BI领域的一个重要应用方向,BI指通过对行业的讣知.经验,结合数学理论.管理理论.市场营销理论,利用工具软件.数学.算法(如:神经网络.遗传算法.聚类.客户绅分等)对企业的数据.业务.市场迚行分析及预测,以图表.数据分析报告的形式支撑企业决策.市场营销.业务拓展.信息运营等工作. 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 原文地址:h

统计图表类型选择应用总结&表数据挖掘方法及应用

数据挖掘方法及应用:

vmware虚拟机上linux操作系统进行tty1~tty6切换方法和详细步骤

vmware虚拟机上linux操作系统如何进行tty1~tty6切换? 现象: Linux的终端机(文字)界面与图形界面间的切换热键为: 进入终端机也就是字符界面(tty1-tty6):[Ctrl] + [Alt] + [F1] - [F6] 进入图形界面(tty7):[Ctrl] + [Alt] + [F7] 可在 VMware Workstation 上安装的linux系统,却怎么也切换不了. 原因: 原因是VMware 缺省的主机.虚拟机切换热键为[Ctrl] + [Alt],与以上 Li

概要设计、详细设计(一)概念、方法、实践步骤

1.    概念.方法.实践步骤 设计是指根据需求开发的结果,对产品的技术实现由粗到细进行设计的过程.根据设计粒度和目的的不同可以将设计分为概要设计.详细设计等阶段以便于管理和确保质量.设计内容也要根据软件系统的实际情况进行定义,比如对于交互性要求高的系统可以有视觉设计等等. 一般来说可以将设计阶段划分为概要设计.详细设计2阶段进行管理,程序设计可以结合项目管理.作业配分.开发团队的能力以及质量要求等因素来决定是否作为单独的阶段进行管理. n  概要设计: 定义实现需求的工作产品技功能.技术构架

GoldenGate实施步骤

一.GoldenGate实施环境 source database:oracle 11.2.0.3 target  database:oracle 11.2.0.3 需要配置的进程如下: source database:extract.data pump target database:replicat 说明如下: 1.主提取进程首先将trail生成在本地,然后datapump读取本地trail再发送到目标服务器,即便网络故障,主提取进程仍然能随着事务生成trail文件,而datapump则会暂时

虚拟化实施步骤

步骤一:确定虚拟化范围?     根据公司的业务与技术需求,定义出集团.分支公司实行虚拟化的环境,或是将各地的服务器集中合到单一的地点服务器上.并定义虚拟化的目标及实施日程表及相关负责人?工具及方法:? 需要与各部门讨论,了解各业务部门或公司IT生产环境所面临的问题及需求,从而确定虚拟化环境.并使用WORD或是PROJECT记录. 步骤二:建立应用程序与服务清单     ? 建立应用程序的与服务的兼容性.可用性需求,例如处理器架构.处理器数量.内存需求.存储空间的需求及其他特殊硬件的配备,确认需

实施工程师利器--项目实施步骤截图工具

为了方便大家在实施的过程中进行截图,特此分享一款实施时的截图工具:Steps To Reproduce – 步骤截图工具. 步骤截图工具能够按照我们鼠标点击的次数进行步骤截图,之前在Windows 7的系统里有自带的步骤截图工具,我们可以通过它来制作步骤图,而且不用每步都自己进行截图,挺方便的.不过比较遗憾的是,它的功能是十分简单,所能够存储的截图数量太少,而且画质不清晰. 如果想要后期对图片进行编辑处理的话又要启用第三方软件.今天我们就为大家介绍一款一站式的工具,它的名字叫做 Steps To

数据挖掘方法

1.布雷格曼散度:是一种类似距离度量的方式,用于衡量两者之间差异的大小.Bregman 散度是损失或者失真函数.考虑如下情况:设点是点的失真或者近似的点,也就是说可能是由添加了一些噪声形成的,损失函数的目的是度量用近似近似导致的失真或者损失,因而Bregman散度可以用作相异性函数. 2.挖掘方向: 内容挖掘:用户信息:(界面内容挖掘) 结构挖掘:网页的先后顺序拓扑结构(界面的超链接挖掘) 使用挖掘:使用情况-->用户的访问模式和知识(日志.用户注册信息),提高站点的质量 3.日志信息挖掘的基本

数据挖掘方法系列(一)数据探索

为什么要做数据探索?了解数据的类型和人与人沟通过程中了解对方的性别一样重要,人与人沟通知道对方的性别才能用不同的方式与其沟通,不同的数据类型能做的操作也不一样.探索数据探索哪些?数据的类型和数据的质量.数据类型分为定性和定量的.定性也可以说是分类的,包括标称和序数.标称很好理解,用户ID.用户的名称也属于标称,虽然也可以重复,但大致还是能代表一个个体:序数有类型{好,非常好,超级好},可以比较大小的,比如"超级好好"比"好"在好的程度要高,{高,较高,非常高}也属于