数据挖掘标准规范之CRISP-DM基础

一、前言

  每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现
手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之
物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前的
CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。

二、框架

三、详述

3.1 业务理解(Business Understanding)

最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

3.2  数据理解(Data Understanding)

数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。

3.3  数据准备(Data Preparation)

数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

3.4  建模(Modeling)

在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

3.5  评估(Evaluation)

到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保
模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

3.6  部署(Deployment)

通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简
单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。

四、总结

  从以上流程和规范我们可以看到,算法实现过程,其实只占了数据挖掘的一部分,真正要想实现数据挖掘,并达到数据挖掘的目标,我们需要做的事情还有很多。

  莫愁前路无知己,夜暗自有早行人。数据挖掘技术交流请加:大数据架构师技术交流:347018601

时间: 2024-11-05 18:55:06

数据挖掘标准规范之CRISP-DM基础的相关文章

11--法律法规、标准规范和职业道德

一.法律法规和标准规范1.中国标准划分为哪四个层次?要求最低的是哪个? <中华人民共和国标准化法>将标准划分为4个层次:即国家标准.行业标准.地方标准和企业标准.其中国家标准要求最低. 2.国家标准的制订程序包括哪些? 国家标准的制定有一套正常程序,每一个过程都要按部就班地完成,这个过程分为前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,我国国家标准的有效期一般为5年. 4.请说

信管师培训之第十一节课作业(法律法规+标准规范+职业道德)

一.法律法规和标准规范1.中国标准划分为哪四个层次?要求最低的是哪个? <中华人民共和国标准化法>将标准划分为4个层次:即国家标准.行业标准.地方标准和企业标准.其中国家标准要求最低. 2.国家标准的制订程序包括哪些? 国家标准的制定有一套正常程序,每一个过程都要按部就班地完成,这个过程分为前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,我国国家标准的有效期一般为5年. 4.请说

2016年4月11日作业(法律法规、标准规范、职业道德)

一.法律法规和标准规范1.中国标准划分为哪四个层次?要求最低的是哪个?P498 答:<中华人民共和国标准化法>将标准划分为4个层次,既国家标准.行业标准.地方标准和企业标准.国家标准的要求最低.2.国家标准的制订程序包括哪些? 答:前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段.3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? 答:ISO标准每5年复审一次:国家标准实施5年内要进行复审,既国家标准有效期一般为5年.4.请说明如下是什么标准?GB.GB/T.

项目收尾管理、知识产权管理、法律法规和标准规范、职业道德规范 知识点

一.项目收尾管理 1.项目收尾包括哪三方面内容?项目收尾的内容包括:项目验收.项目总结和项目评估审计. 2.项目总结的意义;项目总结的主要意义如下:1)了解项目全过程的工作情况及相关的团队或成员的绩效状况.2)了解出现的问题并进行改进措施总结.3)了解项目全过程中出现的值得吸取的经验并进行总结.4)对总结后的文档进行讨论,通过后即存入公司的知识库,从而纳入企业的过程资产. 3.项目总结会包括哪些内容:项目总结会包括的内容如下:1)项目绩效2)技术绩效3)成本绩效4)进度计划绩效5)项目的沟通6)

项目收尾、知识产权和法律法规和标准规范作业

一.项目收尾管理 1.项目收尾包括哪三方面内容? 项目收尾包括:项目验收.项目总结和项目评估审计. 2.项目总结的意义; 项目总结的意义: (1).了解项目全过程的工作情况及相关团队或成员的绩效状况. (2).了解出现的问题并进行改进措施总结 (3).了解项目全过程中出现的值得吸取的经验并进行总结. (4).对总结后的文档进行讨论,通过后即存入公司的知识库,从而纳入企业的过程资产. 3.项目总结会包括哪些内容: 一般的项目总结会包括以下内容: (1).项目绩效. (2).技术绩效. (3).成本

第十一课_法律法规、标准规范、职业道德

一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 1.国家标准: 2.行业标准: 3.地方标准: 4.企业标准: 要求最低的是国家标准: 2.国家标准的制订程序包括哪些? 九个阶段: 1.前期准备: 2.立项: 3.起草: 4.征求意见: 5.审查: 6.批准: 7.出版: 8.复审: 9.废止: 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标注每5年复审一次: 国家标准有效期为5年: 4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB

2016年4月11日作业 法律法规和标准规范

软考中高项学员:2016年4月11日作业 一.法律法规和标准规范 1.中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准.企业标准  要求最低的是国家标准 2.国家标准的制订程序包括哪些? 前期准备 .立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,国家标准管理办法中规定国家标准实施5年内要进行复审,即国家标准有效期一般为5年 4.请说明如下是什么标准?GB.GB/T.

第十一节 &nbsp; 法律法规和标准规范

第二十一章  法律法规和标准规范 1.国家中国标准划分为哪四个层次?要求最低的是哪个? 国家中国标准划分:国家标准.行业标准.地方标准.企业标注.要求最低的是国家标准. 2.标准的制订程序包括哪些? 标准的制订程序包括:前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段. 3.ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每五年复审一次,我国国家标准的有效期5年复审一次. 4.请说明如下是什么标准?GB.GB/T.GB/Z.GJB? GB:强制性国家标

软考中高项学员:2016年4月11日作业 法律法规和标准规范

软考中高项学员:2016年4月11日作业  法律法规和标准规范 1.  中国标准划分为哪四个层次?要求最低的是哪个? 国家标准.行业标准.地方标准.企业标准.最低的是国家标准. 2.  国家标准的制订程序包括哪些? 国标制订程序包括:前期准备.立项.起草.征求意见.审查.批准.出版.复审和废止9个阶段. 3.  ISO标准每几年复审一次?我国国家标准的有效期几年复审一次? ISO标准每5年复审一次,国家标准的有效期一般为5年. 4.  请说明如下是什么标准?GB.GB/T.GB/Z.GJB? G